Regex - JS Script entfernen

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Regex - JS Script entfernen

    Hallo Gemeinde,

    ich möchte aus einer HTML Datei den kompletten JavaScript entfernen.

    Dazu benutze ich

    PHP-Code:
        preg_match_all("%<script[^>]*?>.*?</script>%msi"$result$matches1,PREG_SET_ORDER);
        echo 
    "<pre>";
        foreach (
    $matches1 as $match){
            
    print_r($match);
        } 
    um alle JS Sourcen zu finden....

    Leider findet er folgende JS Code nicht - den ich gerne entfernen würde.
    Der ist ziemlich verzwickt - daher hab ich den mal komplett reingehängt.

    Warum krieg ich den oben nicht mit der Regex ?
    Vielleicht kann ja einer helfen ?

    Gruß Tom

    Die Datei ist im Anhang

    HTML-Code:
    <script type="text/javascript">
    		  <! CDATA  */window.BF_BUILD="Mon Jun 14 11:03:55 2010";if(!window.
    LOADED){window.BF_BEFORE=new Date().getTime();
     
     * jQuery JavaScript Library v1.3.2
     * http: jquery.com/
     *
     * Copyright (c) 2009 John Resig
     * Dual licensed under the MIT and GPL licenses.
     * http: docs.jquery.com/License
     *
     * Date: 2009-02-19 17:34:21 -0500 (Thu, 19 Feb 2009)
     * Revision: 6246
     */
    (function(){var q=this,j,E=q.jQuery,u=q.$,t=q.jQuery=q.$=function(K,L){return new ......
    
    		})()    > */
    		</script>
    Angehängte Dateien
    Zuletzt geändert von JR-EWING; 17.06.2010, 23:10.
    Spambot Falle
    Wem das Wasser bis zum Hals steht, sollte nicht den Kopf hängen lassen.

  • #2
    Hallo,

    da das dazwischen doch etwas lang ist, vermute ich einfach, dass da ein internes Limit überschritten wird.

    Ich würde es mal über DOM versuchen.

    Gruß,

    Amica
    [COLOR="DarkSlateGray"]Hast du die [COLOR="DarkSlateGray"]Grundlagen zur Fehlersuche[/color] gelesen? Hast du Code-Tags benutzt?
    Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
    Super, danke!
    [/COLOR]

    Kommentar


    • #3
      das hier funktioniert:
      PHP-Code:
      <?php
        $str 
      '<script type="text/javascript">
                <! CDATA  */window.BF_BUILD="Mon Jun 14 11:03:55 2010";
      if(!window.LOADED){window.BF_BEFORE=new Date().getTime();
       
       * jQuery JavaScript Library v1.3.2
       * http: jquery.com/
       *
       * Copyright (c) 2009 John Resig
       * Dual licensed under the MIT and GPL licenses.
       * http: docs.jquery.com/License
       *
       * Date: 2009-02-19 17:34:21 -0500 (Thu, 19 Feb 2009)
       * Revision: 6246
       */
      (function(){var q=this,j,E=q.jQuery,u=q.$,t=q.jQuery=q.$=function(K,L){return new ......

              })()    > */
              </script>'
      ;
        
      $str preg_replace('/<script[^>]*>.*?<\/script>/msi'''$str);
        
      print_r($str);
      ?>
      Kannst du auch mit
      PHP-Code:
      $str preg_match_all('/<script[^>]*>.*?<\/script>/msi'$str $hit);
      print_r($hit); 
      machen. Tipp. Quelltext ansehen! Der JavaScript-Code wird im Browser nicht angezeigt.

      Peter
      Nukular, das Wort ist N-u-k-u-l-a-r (Homer Simpson)
      Meine Seite

      Kommentar


      • #4
        hm es scheint wirklich irgendwo ein Limit Problem zu sein.
        Hab gerade oben die Snippets ausprobiert und bekomme das gleich Ergebnis. Wenn ich den String kürze klappt es

        hm will das ungern mit DOM lösen - da müsste ich die ganze Klasse umschreiben
        Spambot Falle
        Wem das Wasser bis zum Hals steht, sollte nicht den Kopf hängen lassen.

        Kommentar


        • #5
          Zitat von JR-EWING Beitrag anzeigen
          da müsste ich die ganze Klasse umschreiben
          So schlimm kann das doch nicht sein, ca. 10 Zeilen. Wenn du es nicht machen willst, ist es auf jeden Fall schwierig, dir weiterzuhelfen.
          [COLOR="DarkSlateGray"]Hast du die [COLOR="DarkSlateGray"]Grundlagen zur Fehlersuche[/color] gelesen? Hast du Code-Tags benutzt?
          Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
          Super, danke!
          [/COLOR]

          Kommentar


          • #6
            Auch wenn es dieses ominöse Limit nicht gäbe, wäre dein Regex gefährlich ungenau. Im zu entfernenden JS-Code könnte nämlich </script> z.B. als String oder in einem Kommentar vorkommen. Deswegen kannst du nicht ungreedy suchen. Greedy geht auch nicht, weil dann alles vom ersten bis zum letzten script-Tag entfernt werden würde, inklusive HTML dazwischen. Folglich müsstest du ungreedy suchen, aber dafür sorgen, dass "</script>" nur als Tag gematcht wird, aber nicht als String oder Kommentar in JS. Das ist ziemlich komplex. DOM ist dagegen deutlich einfacher.

            Kommentar


            • #7
              Hab es jetzt mal mit DOM versucht.

              PHP-Code:
               $doc = new DOMDocument();
               
              $doc->loadHTML($result);
               
              $scripts $doc->getElementsByTagName('script');
               
              print_r($scripts); 
              das spuckt mir ein Haufen Fehler aus bei LoadHTML.

              htmlParseEntityRef: expecting ';'

              Tags mit Script werden anscheinend garnicht gefunden.
              Spambot Falle
              Wem das Wasser bis zum Hals steht, sollte nicht den Kopf hängen lassen.

              Kommentar


              • #8
                Zitat von JR-EWING Beitrag anzeigen
                das spuckt mir ein Haufen Fehler aus bei LoadHTML.
                PHP-Code:
                    // ...
                    
                libxml_use_internal_errors(true);
                    
                $doc->loadHTML($result);
                    
                print_r(libxml_get_errors()); // nur, falls die dich interessieren
                    // ... 
                Gruß,

                Amica
                [COLOR="DarkSlateGray"]Hast du die [COLOR="DarkSlateGray"]Grundlagen zur Fehlersuche[/color] gelesen? Hast du Code-Tags benutzt?
                Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
                Super, danke!
                [/COLOR]

                Kommentar


                • #9
                  Wenn dein HTML-Code nicht valide ist, kannst du dennoch mit getElementsByTagName() filtern. Allerdings kannst du die daraus resultierende DOMNodeList nicht einfach mit print_r() oder var_dump() ausgeben. DOMNodeList ist nämlich nur ein Container, ein PHP-Objekt ähnlich einem Handle für ein MySQL-Resultset. Das kannst du auch nicht print_r'n - da steht dann nur "Resource #1".

                  So wirds was:
                  PHP-Code:
                  $scripts $doc->getElementsByTagName('script');
                  for (
                  $i 0$i $scripts->length$i++) {
                    print 
                  $scripts->item($i)->nodeName '=' $scripts->item($i)->nodeValue "\n";

                  Dabei wirkt DOMNodeList::item() ähnlich wie mysql_fetch_object() - es lädt den nächsten Eintrag der Ergebnisliste (lässt sich den von libxml geben).

                  Eventuell kannst du auch mit forach über DOMNodeList iterieren. Hab ich grad nicht im Kopf, musst du ausprobieren.

                  Kommentar


                  • #10
                    Warum so umständlich?

                    PHP-Code:
                    foreach ($doc->getElementsByTagName('script') as $elem) {
                        
                    // mach was mit $elem, z. B.
                        
                    print $elem->nodeName '=' $elem->nodeValue "\n";

                    Zuletzt geändert von AmicaNoctis; 18.06.2010, 13:48.
                    [COLOR="DarkSlateGray"]Hast du die [COLOR="DarkSlateGray"]Grundlagen zur Fehlersuche[/color] gelesen? Hast du Code-Tags benutzt?
                    Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
                    Super, danke!
                    [/COLOR]

                    Kommentar


                    • #11
                      Vielen Lieben DANK - versuch ich gleich mal
                      Spambot Falle
                      Wem das Wasser bis zum Hals steht, sollte nicht den Kopf hängen lassen.

                      Kommentar


                      • #12
                        irgendwie steh ich noch auf dem Schlauch .....


                        PHP-Code:
                        $doc = new DOMDocument();
                        $doc->loadHTML($result);

                        $scripts $doc->getElementsByTagName('script');
                        for (
                        $i 0$i $scripts->length$i++) {
                          print 
                        $scripts->item($i)->nodeName '=' $scripts->item($i)->nodeValue "\n";
                          
                        $old $doc->removeChild($scripts->item($i));
                        }  

                        echo 
                        $doc->saveHTML(); 
                        kreig ich jetzt folgenden Fehler:
                        HTML-Code:
                        <b>Fatal error</b>:  Uncaught exception 'DOMException' with message 'Not Found Error' in /var/www/clients/client4/web9/web/density.php:65
                        Stack trace:
                        #0 /var/www/clients/client4/web9/web/density.php(65): DOMNode-&gt;removeChild(Object(DOMElement))
                        Das hab ich aus dem Manual - eigentlich mach ich das gleiche :-(

                        PHP-Code:

                        // we retrieve the chapter and remove it from the book
                        $chapter $book->getElementsByTagName('chapter')->item(0);
                        $oldchapter $book->removeChild($chapter); 
                        Spambot Falle
                        Wem das Wasser bis zum Hals steht, sollte nicht den Kopf hängen lassen.

                        Kommentar


                        • #13
                          removeChild kann nur für unmittelbare Kindknoten (daher der Name) benutzt werden. Damit du das script-Element also entfernen kannst, musst du dir dessen Elternelement holen:

                          PHP-Code:
                          foreach ($doc->getElementsByTagName('script') as $elem) {
                              
                          $elem->parentNode->removeChild($elem);

                          [COLOR="DarkSlateGray"]Hast du die [COLOR="DarkSlateGray"]Grundlagen zur Fehlersuche[/color] gelesen? Hast du Code-Tags benutzt?
                          Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
                          Super, danke!
                          [/COLOR]

                          Kommentar


                          • #14
                            Super Danke - jetzt hab ichs hingekriegt. Vielen Dank an alle Helfer - hab ich viel davon gelernt, wenn auch noch nicht kapiert. Aber mit DOM Parsen macht wohl mehr Sinn und wohl auch besser als Regex ;-)
                            Spambot Falle
                            Wem das Wasser bis zum Hals steht, sollte nicht den Kopf hängen lassen.

                            Kommentar

                            Lädt...
                            X