links findest du über den regulären ausdruck
PHP-Code:
$regexp =
'/'.
'(?#Protocol)'.
'((?:(?:ht|f)tp(?:s?)\:\/\/|~\/|\/)?)'.
'(http:\/\/)'.
'((?#Username:Password)'.
'(?:\w+:\w+@)?)'.
'((?#Subdomains)'.
'(?:(?:[-\w]+\.)+)'.
'(?#TopLevel Domains)'.
'(?:com|org|net|gov|mil|biz|info|mobi|name|aero|jobs|museum|travel|[a-z]{2}))'.
'((?#Port)'.
'(?::[\d]{1,5})?)'.
'((?#Directories)'.
'(?:(?:(?:\/(?:[-\w~!$+|.,=]|%[a-f\d]{2})+)+|\/)+|\?|#)?)'.
'((?#Query)'.
'(?:(?:\?(?:[-\w~!$+|.,*:]|%[a-f\d{2}])+=?(?:[-\w~!$+|.,*:=]|%[a-f\d]{2})*)(?:&(?:[-\w~!$+|.,*:]|%[a-f\d{2}])+=?(?:[-\w~!$+|.,*:=]|%[a-f\d]{2})*)*)*)'.
'((?#Anchor)'.
'(?:#(?:[-\w~!$+|.,*:=]|%[a-f\d]{2})*)?)/';
wenn du es umständlich willst kannst du diesen so erweitern, dass er a-Tags erkennt und ignoriert
wenn du es einfacher willst suchst du erst nach allen a-Tags ersetzt sie durch platzhalter,entfernst dann alle links und ersetzt dann die Platzhalter wieder
finden von a-Tags
PHP-Code:
$regexp2 = '/<a[^>]*href="([^"]*)"[^>]*>/';