URL aus String mit preg_replace();

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • URL aus String mit preg_replace();

    Hi Leute! Mein Problem ist zugegeben kein neues und ich hab auch mit Hilfe der Suchfunktion schon einiges zum Thema gefunden, jedoch hilft mir leider keines der 15000 results weiter!

    Ich habe einen String $action der einen Teil eines Logfile-Auszuges dastellt.
    $action kann auch URLs enthalten, die ich mit folgender Funktion filtere (replace_url($action)):
    PHP-Code:
    function replace_url($string) {
        
    //Alle Toplevel Domainendungen
        
    $tld_endings  "com|net|org|biz|info|edu|eu|aero|coop|museum|al|as|vi|ai|ag|ar|am|";
        
    $tld_endings .= "aw|ac|az|et|au|bh|by|be|bz|bj|ba|br|vg|io|bg|cl|cn|cc|dk|de|dj|ec|";
        
    $tld_endings .= "ee|fo|fi|fr|tf|li|gm|gi|gr|gl|uk|gg|gy|hm|hk|in|id|ie|im|il|it|jp|";
        
    $tld_endings .= "je|ca|kz|ke|ki|cg|hr|lv|lt|lu|mw|my|mt|mx|fm|md|mc|mn|ms|nz|ni|nl|";
        
    $tld_endings .= "an|nu|nf|no|at|pk|pa|pe|ph|pn|pl|pt|pr|ro|ru|su|ch|yu|sc|sg|sk|si|";
        
    $tld_endings .= "es|kn|sh|sf|za|gs|kr|sr|tw|tz|th|tk|to|tt|cz|tr|tm|tc|tv|ua|hu|uy|";
        
    $tld_endings .= "us|uz|vu|ve|ae|vn|ws|cy";
        
    //alle erlaubten Dateiendungen
        
    $file_endings "php|htm|html|xml|xhtml|jpg|jpeg|gif|png|pdf|asp|js|swf";
        
    //alle Umlaute
        
    $umlaute      "àáâãäåæçèéêëìíîïðñòóôöøùúûüýþÿ";
         
        
    //Die Ausdrücke um [url]www....[/url] oder Strings
        //mit einem @ usw in Links ersetzt

        
    $patterns["mail"] = "#(^|[^\"=\./a-z0-9]{1})([_a-z0-9-\." $umlaute "]+)".
                            
    "(\@)([a-z0-9_\-\." $umlaute "]+)(\.)(" $tld_endings .
                            
    ")(/)*([\s\r\t\n<>]|$)#msi";
        
    $replaces["mail"] = "\\1<a target=\"new\" href=\"mailto:\\2\\3\\4\\5\\6\\7\">".
                            
    "\\2\\3\\4\\5\\6\\7</a>\\8";

        
    $patterns["url"] = "#(^|[^\"=\./a-z0-9]{1})([url ]http://[/ url]|[u rl]ftp://[/u rl]|
    [u rl]news://[/u rl]|[u rl]https://[/u rl]|ftps://)"
    .
                           
    "([a-z0-9_\-\." $umlaute "]+)(\.)(" $tld_endings ")".
                           
    "(/([a-z0-9_\-/" $umlaute "]+)*)*([a-z0-9\._-]+\.(" .
                           
    $file_endings ")([^\s\n\r\t\(\)\[\]\{\}<>]+)*)*([\s\r\t\n<>]|$)#msi";
        
    $replaces["url"] = "\\1<a target=\"new\" href=\"\\2\\3\\4\\5\\6\\8\">".
                           
    "\\2\\3\\4\\5\\6\\8</a>\\11";

        
    $patterns["ftp"] = "#(^|[^\"=\./a-z0-9]{1})(ftp\.)([a-z0-9_\-\." $umlaute .
                           
    "]+)(\.)(" $tld_endings ")(/([a-z0-9_\-/" $umlaute .
                           
    "]+)*)*([a-z0-9\._-]+\.(" $file_endings .
                           
    ")([^\s\n\r\t\(\)\[\]\{\}<>]+)*)*([\s\r\t\n<>]|$)#msi";
        
    $replaces["ftp"] ="\\1<a target=\"new\" href=\"ftp://\\2\\3\\4\\5\\6\\8\">".
                          
    "\\2\\3\\4\\5\\6\\8</a>\\11";

        
    $patterns["www"] = "#(^|[^\"=\./a-z0-9]{1})(www\.)([a-z0-9_\-\." $umlaute .
                           
    "]+)(\.)(" $tld_endings ")(/([a-z0-9_\-/" $umlaute .
                           
    "]+)*)*([a-z0-9\._-]+\.(" $file_endings .
                           
    ")([^\s\n\r\t\(\)\[\]\{\}<>]+)*)*([\s\r\t\n<>]|$)#msi";
        
    $replaces["www"] = "\\1<a target=\"new\" href=\"http://\\2\\3\\4\\5\\6\\8\">"
                           
    "\\2\\3\\4\\5\\6\\8</a>\\11";
        
    //Den String ersetzen...
        
    $string preg_replace($patterns$replaces$string);
        
    //...und zurückgeben.
        
    return $string;

    Nun werden ca. 90% aller URLs auch in Links umgewandelt, jedoch eben nicht ALLE!

    Folgende URLs werden einfach nicht gewandelt:
    BSP1: http://bobtheveg.dyndns.org/SRO/Char...?profile=25777
    BSP2: http://www.youtube.com/watch?v=jykmfSs8jZA
    BSP3: http://www.youtube.com/watch?v=oSbE9...elated&search=

    ich hab keinen Schimmer warum manche URLs "durchrutschen" und hoffe irgendjmd von euch kann mir sagen, was ich nicht beabsichtigt habe oder falsch mache.

    Danke.
    Zuletzt geändert von nichtsooft; 21.05.2007, 19:34.
    WHILE (!$asleep) { $sheep++; }

  • #2
    Brich deinen Code um. und korrigier die umgewandelten Protokolle.
    Die Regeln | rtfm | register_globals | strings | SQL-Injections | [COLOR=silver][[/COLOR][COLOR=royalblue]–[/COLOR][COLOR=silver]][/COLOR]

    Kommentar


    • #3
      so umgebrochen!

      Das ist schon korrekt mit den Protokollen, jedoch arbeite ich mit BBcode-ähnlichen Zeichenketten und daher stimmt die dastellung hier nicht so ganz ([url....)!
      WHILE (!$asleep) { $sheep++; }

      Kommentar


      • #4
        Dann bau halt Leerzeichen ein oder so aber wenn man das nicht lesen kann dann kann auch niemand dazu Stellung beziehen.
        EDIT:
        Den Kommentar bitte auch noch umbrechen. Siehe Scrollbalken bei 1024x768.
        Die Regeln | rtfm | register_globals | strings | SQL-Injections | [COLOR=silver][[/COLOR][COLOR=royalblue]–[/COLOR][COLOR=silver]][/COLOR]

        Kommentar


        • #5
          kk ist umgebrochen und sollte bei 1024 bequem zu lesen sein! =)
          WHILE (!$asleep) { $sheep++; }

          Kommentar


          • #6
            und jetzt nimm die drei links in die eine hand,
            regexp-evaluator.de in die andere
            und gehe alle patterns einzeln durch, dann weißt du, welches fehlschlägt und deswegen angepasst werden muss.

            Kommentar


            • #7
              Also ich check das tool bei Gott nicht! (http://regexp-evaluator.de/) Ich spiel nun schon seit gut und gern 2h rum....
              WHILE (!$asleep) { $sheep++; }

              Kommentar


              • #8
                wo ist das problem?

                Kommentar


                • #9
                  öhm das Problem? Das Problem ist das dieses "tool" jedglicher Logik entbehrt!
                  Wenn ich auf das gute alte Hirn zurückgreife, bekomm ich '?' zurück.
                  Wenn ich die Links in das Webform reinpacke kommt das raus: LINK

                  Edit: Sollte ich mit dem '?'* richtig liegen: Ich hab schon probiert hier ein Workaround zu bauen, bekomm's aber nicht hin!


                  *) Das Fragezeichen als GET-Daten-Zeiger. Solange eine in meiner Funktion angegebene Dateiendung vor dem ? steht, klappt alles. Wenn zB. index.php "weggelassen" wird und stattdessen nur http://url.de/test/?test=false angegeben wird haut's nichtmehr hin.
                  Zuletzt geändert von nichtsooft; 22.05.2007, 00:36.
                  WHILE (!$asleep) { $sheep++; }

                  Kommentar


                  • #10
                    das mit dem hirn funktioniert wohl noch nicht immer..
                    Hier können Sie Reguläre Ausdrücke interaktiv auswerten. Geben Sie dazu in den untenstehenden Feldern Ihren zu durchsuchenden Text und Ihren Regulären Ausdruck an, ...
                    na, welchen teil hast du überlesen?

                    der produzierte code enthält
                    PHP-Code:
                      // Der Reguläre Ausdruck
                      //
                      
                    $pattern '##is'
                    und das feld "Regulärer Ausdruck" ist leer.

                    wie wärs, wenn du das änderst?

                    Kommentar


                    • #11
                      Und was meinst du soll ich als regulären Ausdruck angeben? Hab nun von alpha bis omega alles auspobiert.
                      WHILE (!$asleep) { $sheep++; }

                      Kommentar


                      • #12
                        Original geschrieben von penizillin
                        ... und gehe alle patterns einzeln durch, dann weißt du, welches fehlschlägt und deswegen angepasst werden muss.
                        welche meine ich wohl?

                        Kommentar


                        • #13
                          So hab jetzt die platterns durch! Bei 90% bekomme ich den Fehler "unknown modifier" und der rest gibt mir keinen Aufschluss!

                          Besides:
                          TsWebTec ‎(23:58):
                          ahhso für den logbrower der die aufgezeichneten websites ind links verwandelt
                          nichtsooft ‎(23:59):
                          jepp
                          TsWebTec ‎(00:03):
                          omg nett gehen die leute ja ned gerade mit dir um xD
                          nichtsooft ‎(00:04):
                          ich bin's gewohnt! Wenn sich jmd mir gegenüber so blöd anstellt wie ich in deren augen erscheinen muss, bin ich auch nicht grad handzahm!
                          WHILE (!$asleep) { $sheep++; }

                          Kommentar


                          • #14
                            soso.. 90% von 4 patterns sind also?...

                            weißt du denn, was ein modifier ist?

                            Kommentar


                            • #15
                              Nunja ein modifier ist ne art zusatzangabe, wie zB. i (ignoriere gross/kleinschreibung). Findet man überall im computer, wie z.B. auch in Konsolenbefehlen...:
                              ping 99.99.99.999 -t
                              WHILE (!$asleep) { $sheep++; }

                              Kommentar

                              Lädt...
                              X