PHP <Body> auslesen, und JS entfernen

**ApoY2k** · 18-10-2012, 14:37

Du willst den body parsen, warum suchst du dann nicht einfach nach <body> und </body>?

**none** · 18-10-2012, 14:55

Sorry

Falsch ausgedrückt. Ich will nur den reinen Text ohne b's oder strongs oder javascript "anzeigen".

Gruß und danke

**ezkimo** · 18-10-2012, 15:38

Wieso wendest Du nicht die DOM Objekte von PHP an, die genau für Dein Anliegen entwickelt wurden? Auf jeden Fall kannst Du so auch nur den Text filtern.

**none** · 18-10-2012, 17:09

Hallo ezkimo,

danke für den Hinweis, hatte ich aber auch schon probiert (leider ohne erfolg) der hat auch den script Bereich im Body nicht erkannt. Also die Scripte an sich bekomm ich hin, nur nicht die scripte

HTML Code:

$html = new DOMDocument();
$html->loadHtml($html_content);
$xpath = new DOMXPath($html);

$nodebody = $xpath->query('//body');
$scriptes = $xpath->query('//script');

Gruß

**ApoY2k** · 19-10-2012, 07:31

Poste mal bitte irgendwelche Testdaten, mir kommt das spanisch vor. Zeig mal, was du parsen willst und danach bitte auch, was du als Ergebnis erwartest.

**ezkimo** · 19-10-2012, 09:01

Also ich habe es gerade mal mit dem oben bereitgestellten Javascript probiert. Läuft problemlos.

Ausgangslage:

PHP Code:


$str = <<<XML
<script type="text/javascript">

  var _gaq = _gaq || [];
  _gaq.push(['_setAccount', 'UA-XXXXXX-X']);
  _gaq.push(['_trackPageview']);

  (function() {
    var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true;
    ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js';
    var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ga, s);
  })();

</script>
XML;

Fallbeispiel 1:

PHP Code:


$doc = new DomDocument();
$doc->loadHTML($str);

$elements = $doc->getElementsByTagName('script');
for ($i = 0; $i < $elements->length; $i++) {
    echo "<pre>";
    var_dump($elements->item($i)->nodeValue);
    echo "</pre>";
}

Ganz normales Suchen mittels getElementsByTagName();

Fallbeispiel 2:

PHP Code:


$xpath = new DOMXPath($doc);
$scripts = $xpath->query('//script');

for ($i = 0; $i < $scripts->length; $i++) {
    echo "<pre>";
    var_dump($scripts->item($i)->nodeValue);
    echo "</pre>";
}

Beide Fallbeispiele liefern den Inhalt der Script Tags. Jetzt kommt es eigentlich nur drauf an, wie Dein konkretes Beispiel aussieht, an dem diese beiden Herangehensweisen nicht funktionieren.

**none** · 22-10-2012, 19:08

Hallo,

also mit deinem Fallbeispiel 1 werden tatsächlich (soweit ich das beurteilen kann) alle JS aus dem Body gefunden.
Bei mir sieht es jetzt so aus:

PHP Code:


$doc = new DomDocument();

$doc->loadHTML($this->content->html);



$elements = $doc->getElementsByTagName('script');

for ($i = 0; $i < $elements->length; $i++) {

    echo "<pre>";

    var_dump($elements->item($i)->nodeValue);

    echo "</pre>";

}

Nur wie kann ich jetzt den ermittelten Code aus dem html Code extrahieren.

Ich hatte die Idee $elements->item($i)->nodeValue in einem Array zu speichern und dann mit replace die Daten aus dem HTML Code zu ersetzen. Leider bekomme ich da immer einen Fehler 500 ..

Ich habe auch hier im Forum mehrere Ansätze gesehen mit removeChild die aber irgendwie bei mir nicht hinhauen.

Hättest du da eventuell noch einen Tipp für mich ?

Vielen Dank aber schon einmal für deine Hilfe!

**ezkimo** · 23-10-2012, 08:02

Ich habe gerade noch mal getestet, ob die Inhalte in der for-Schleife manipuliert werden können. Das funktioniert problemlos, indem Du dem Du der Eigenschaft nodeValue einfach einen anderen Wert zuweist. Schau Dir bitte in diesem Zusammenhang auch die DomDocument::saveXML() und DomDocument::saveHTML() Methoden an. Ich glaube nämlich, dass Du das DomDocument Objekt von PHP noch nicht richtig verstanden hast. Wenn Du weitere Probleme haben solltest, schreibe bitte immer Deinen Lösungsansatz als Codebeispiel dabei.

**derphpprofie** · 24-10-2012, 01:45

Schreibe alles was du über echo ausgibst in eine Variable, dann kannst du die Variable später ausgeben mit echo und z.B. in einem Textarea.

Beispiel:
$aus .= '<body><h1>';
...
$aus .= '</body></html>';

echo $aus;

echo "<textarea name='DOM String' class='myfirst' rows='12' cols='60' wrap='virtual' id='TEXTAREA1'>$aus</textarea>";

unset($aus);

**none** · 26-10-2012, 08:22

Hallo,

ich wollte mich nur schnell bedanken, die Tipps waren wirklich sehr hilfreich. Mit DOM konnte ich das mehr oder minder Problemlos auslesen

**derphpprofie** · 26-10-2012, 16:54

Du hast meist diese Tags selbst Geschrieben und Definiert, nur bei größeren Projekten die Dynamisch sind ist ein Tool namens DOM Inspektor sehr Hilfreich.

Originally posted by none View Post

Hallo,

ich wollte mich nur schnell bedanken, die Tipps waren wirklich sehr hilfreich. Mit DOM konnte ich das mehr oder minder Problemlos auslesen

PHP <Body> auslesen, und JS entfernen