Original geschrieben von penizillin
hätte es ["\\'] nicht auch schon getan?
Mh.. Na gut, stimmt.
Deine o.g. Lösung schließt aber keine http-URLs aus. D.h. sie würde doch alles finden, was nicht nied- und nagelfest ist? Ich suche ja auch keine einfachen Wörter. Das hätte ich nämlich auch noch hinbekommen .
Das hilft mir ja nichts. In dem durchsuchten Text kann http://www.test.de vorkommen, es kann http://www.spiegel.de/politik/xy.html, oder auch nur download.zip vorkommen. Ich möchte aber nur die download.zip. Das Problem ist, dass ich ein unvorhersehbares Szenario habe. Deshalb habe ich auch darauf angespielt, nur Inhalte zu parsen, die innerhalb eines href-Tages ohne http://, https://, ftp:// und was weiß ich nicht alles beginnen. Vllt. genügt es ja, nur Adressen zu parsen, in denen kein "://" vorkommt?
Okay, grundsätzlich:
Ich arbeite an einem Plug-In für ein Skript, das vorhandene, interne (!) Links auf ihre Gültigkeit überprüft. Da der Editor alle internen URLs verkürzt (relative URL), wird aus einem internen Link "http://www.meineseite.de/beispielseite.html" ein "beispielseite.html". Ich kann deshalb leider interne Links nicht am "http://www.meineseite.de" erkennen, was inzwischen funktionieren würde (und in einem anderen Szenario auch benutzt wird). Deshalb habe ich innerhalb des geparsten Textes statt ein:
Trotz alledem möchte ich gerne die internen Links überprüfen.
Deshalb habe ich mir gedacht, ich komme an diese internen Links, indem ich einen Regexp aufstelle, der besagt: Es werden lediglich Links geparst, die innerhalb eines "href"-Tages ohne "://" beginnen. Begründung: "://" kommt sowohl in "http", "https", "ftp" als auch in vielen anderen URLs vor, sodass damit quasi alles abgedeckt wäre. Ggf. ist es noch notwendig, auch "www" zu beachten.
Soweit meine Theorie, soweit alles, was dbzgl. in meinem Kopf herrscht. In der Praxis jedoch versage ich ...
verstehe nur nicht, was für ein zusammenhang zu den letzten 4 seiten des threads besteht. [/B]
Direkt - keiner. Indirekt schon, weil es das gleiche Skript ist, lediglich ein anderer "Modus", eine URL zu parsen. Vllt. mache ich es mir auch zu kompliziert, aber das hier zu klären, ginge zu weiter.
Kommentar