php-resource



Zurück   PHP-Scripte PHP-Tutorials PHP-Jobs und vieles mehr > Entwicklung > PHP Developer Forum
 

Login

 
eingeloggt bleiben
star Jetzt registrieren   star Passwort vergessen
 

 

 


PHP Developer Forum Hier habt ihr die Möglichkeit, eure Skriptprobleme mit anderen Anwendern zu diskutieren. Seid so fair und beantwortet auch Fragen von anderen Anwendern. Dieses Forum ist sowohl für ANFÄNGER als auch für PHP-Profis! Fragen zu Laravel, YII oder anderen PHP-Frameworks.

Antwort
 
LinkBack Themen-Optionen Thema bewerten
  #76 (permalink)  
Alt 14-01-2013, 07:01
Melewo
 Registrierter Benutzer
Links : Onlinestatus : Melewo ist offline
Registriert seit: Jan 2013
Beiträge: 365
Melewo befindet sich auf einem aufstrebenden Ast
Standard

Zitat:
Zitat von newbie1955 Beitrag anzeigen
PHP-Code:
echo "<li><a href=\"".htmlspecialchars($hreft)."\" target='_blank'>$title</a></li>"
Wenn Du die Ausgabe von $title nicht genau wie die Ausgabe von $hreft absicherst, so könnte Dir jemand statt Titelstring einen String-iFrame-String andrehen, in dem dann eine Seite mit Schadcode nachgeladen wird. Gegenwertig scheint diese Vorgehensweise mit dem Nachladen per iFrame an Beliebtheit zu gewinnen. Im vorletzten Listing hattest Du noch $title = htmlentities verwendet, im letzten nichts mehr, doch htmlspecialchars würde ich für die Ausgabe von $title schon verwenden.

Meiner augenblicklichen Meinung nach müsste bereits $data gefiltert werden, nur wie am besten? Bei der Verwendung von strip_tags() würde wohl für DOM nichts mehr übrig bleiben. Was da ankommt, dass scheint nun einmal kein valides HTML zu sein. Außerdem kannst Du Dich nicht auf die Quellen verlassen. So sollte es zumindest JS ausfiltern:

PHP-Code:
$data file_get_contents('http://www.hurriyetdailynews.com/');

$data preg_replace("#\s{2,}#"""$data);
$data preg_replace("#<script(.+?)</script>#i"""$data);

$doc = new DOMDocument();
$doc->loadHTML($data); 
Die Fehler verschwinden dadurch aber noch nicht.

Geändert von Melewo (14-01-2013 um 14:38 Uhr)
Mit Zitat antworten
  #77 (permalink)  
Alt 14-01-2013, 14:32
newbie1955
 Registrierter Benutzer
Links : Onlinestatus : newbie1955 ist offline
Registriert seit: Dec 2012
Beiträge: 241
newbie1955 befindet sich auf einem aufstrebenden Ast
Standard $title mit htmlspecialchars geändert

....aber das ändert leider auch nichts, also doch alle Zeichen einzeln ändern?
Mit Zitat antworten
  #78 (permalink)  
Alt 14-01-2013, 14:51
Melewo
 Registrierter Benutzer
Links : Onlinestatus : Melewo ist offline
Registriert seit: Jan 2013
Beiträge: 365
Melewo befindet sich auf einem aufstrebenden Ast
Standard

Nee, gehe doch einmal Schrittweise vor und suche nach den Ursachen. Also $data wird ja noch mit richtig dargestellten Zeichen ausgegeben. Anschließend beginnt doch erst der Salat und der muss Ursachen haben.
Mit Zitat antworten
  #79 (permalink)  
Alt 14-01-2013, 15:05
newbie1955
 Registrierter Benutzer
Links : Onlinestatus : newbie1955 ist offline
Registriert seit: Dec 2012
Beiträge: 241
newbie1955 befindet sich auf einem aufstrebenden Ast
Standard Danke

für Deine Antwort. Naja, langsam gehen mir die Ideen aus (zumal ich aufgrund meines Anfängerstatus' sowie nicht so viele dazu habe). Und alles übrige habe ich ja versucht. Gibt es nicht auch eine Art türkisches UTF-8. Irgendwo beim Googeln habe ich mal sowas gesehen http://www.html.de/php/28660-tuerkische-zeichen.html, ließ sich aber nichts davon so richtig umsetzen.
Mit Zitat antworten
  #80 (permalink)  
Alt 14-01-2013, 15:38
Melewo
 Registrierter Benutzer
Links : Onlinestatus : Melewo ist offline
Registriert seit: Jan 2013
Beiträge: 365
Melewo befindet sich auf einem aufstrebenden Ast
Standard

Zitat:
Zitat von newbie1955 Beitrag anzeigen
Naja, langsam gehen mir die Ideen aus
Na ja, einen Scraper habe ich auch noch nicht programmiert. Doch wenn ich sehe, dass die Seite, die Du da auslesen möchtest als HTML 4.01 ausgezeichnet wurde, dann aber schon bei den Meta-Tags sich HTML mit XHTML in munterer Folge abwechselt, der Validator mir über 1.100 Warnungen anzeigt, dann verstehe ich auch den Parser, dass der einen Hustenanfall bekommt.

Nehme doch erst einmal error_reporting(E_ALL); und schau welche Fehler da bemeckert werden und ob die sich mit dem anderen Beispiel umgehen lassen. Doch ist es besser wenigstens die häufigsten und gröbsten Fehler zu beseitigen, als an den Symptomen umher zu basteln.
Mit Zitat antworten
  #81 (permalink)  
Alt 14-01-2013, 18:37
newbie1955
 Registrierter Benutzer
Links : Onlinestatus : newbie1955 ist offline
Registriert seit: Dec 2012
Beiträge: 241
newbie1955 befindet sich auf einem aufstrebenden Ast
Standard error

Es kamen vor allem solche Fehler:

Code:
Warning: DOMDocument::loadHTML(): htmlParseEntityRef: no name in Entity, line: 11 in /customers/6/d/c/testseite.php on line 705 Warning: DOMDocument::loadHTML(): Unexpected end tag : link in Entity, line: 15 in /customers/6/d/c/testseite.php Warning: DOMDocument::loadHTML(): htmlParseEntityRef: expecting ';' in Entity, line: 1328
Etwa ein Dutzend
Mit Zitat antworten
  #82 (permalink)  
Alt 14-01-2013, 19:06
Melewo
 Registrierter Benutzer
Links : Onlinestatus : Melewo ist offline
Registriert seit: Jan 2013
Beiträge: 365
Melewo befindet sich auf einem aufstrebenden Ast
Standard

Nun habe ich mir auch noch einmal einige Stunden die Zeit vertrödelt, bekomme es auch nicht hin. Diese Warnungen bleiben bei mir, egal wie viel ich da schon vorher filtere:
Zitat:
error parsing attribute name in Entity, line: 1
Unexpected end tag : link in Entity, line: 1
Habe mal versucht $data zu speichert, sieht noch schlechter aus. Habe auch wenig Lust mir noch etwas einzufangen. Was nun, doch die wichtigsten Zeichen mit preg_replace umschreiben? Mir fällt dazu nichts mehr weiter ein. Man kann ja nicht deren Seite erst einmal aufräumen, falls es nur daran liegen sollte. Oder Du parst die Seite anders. Hatte ich mir auch schon überlegt, würde mit entsprechenden RegEx-Ausdrücken auch gehen und DOM wäre dann über. Nun ja, erst einmal bin ich mit meinem Latein am Ende.
Mit Zitat antworten
  #83 (permalink)  
Alt 14-01-2013, 19:15
newbie1955
 Registrierter Benutzer
Links : Onlinestatus : newbie1955 ist offline
Registriert seit: Dec 2012
Beiträge: 241
newbie1955 befindet sich auf einem aufstrebenden Ast
Standard Danke

aber für Deine viele Mühe. Das merkwürdige ist ja, wenn man deren feed der rein türkischen hurriyet-Seite mit magpie einliest, funktioniert alles problemlos. Nur diese englische Seite macht Probleme. Hast Du denn schon mal was von türkischem utf-8 gehört????
Mit Zitat antworten
  #84 (permalink)  
Alt 14-01-2013, 19:37
Melewo
 Registrierter Benutzer
Links : Onlinestatus : Melewo ist offline
Registriert seit: Jan 2013
Beiträge: 365
Melewo befindet sich auf einem aufstrebenden Ast
Standard

Zitat:
Zitat von newbie1955 Beitrag anzeigen
Hast Du denn schon mal was von türkischem utf-8 gehört????
Ja, diese G g mit Oberbogen sind U+011D und U+011E in der:

Unicode/UTF-8-Zeichentabelle
Mit Zitat antworten
  #85 (permalink)  
Alt 14-01-2013, 21:47
Melewo
 Registrierter Benutzer
Links : Onlinestatus : Melewo ist offline
Registriert seit: Jan 2013
Beiträge: 365
Melewo befindet sich auf einem aufstrebenden Ast
Standard

Jetzt habe ich auch noch etwas zusammengespielt, funktioniert zumindest mit der Anzeige der Zeichen richtig. Bei den Meta-Tags hab ich nichts verändert, das kannst Du alleine machen.
PHP-Code:
<?php
ini_set
("user_agent""Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0");
header("Content-Type: text/html; charset=utf-8");
error_reporting(E_ALL);
?>

<!DOCTYPE html>
<!--[if lt IE 7 ]><html lang="de" class="no-js ie6" xmlns="http://www.w3.org/2000/xhtml"><![endif]-->
<!--[if IE 7 ]><html lang="de" class="no-js ie7" xmlns="http://www.w3.org/2000/xhtml"><![endif]-->
<!--[if IE 8 ]><html lang="de" class="no-js ie8" xmlns="http://www.w3.org/2000/xhtml"><![endif]-->
<!--[if IE 9 ]><html lang="de" class="no-js ie9" xmlns="http://www.w3.org/2000/xhtml"><![endif]-->
<!--[if (gt IE 9)|!(IE)]><!--><html lang="de" class="no-js" xmlns="http://www.w3.org/2000/xhtml"><!--<![endif]-->
<head> 
 
<title>Testseite</title> 
  <meta name="description" content="Die ..... international" />
  <meta name="Author" content="Test" />
  <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"/>
  <meta name="content-language" content="de" />
  <meta name="language" content="deutsch, de" />
  <link href="navi1.css" type="text/css" rel="stylesheet" media="screen" /> 
  <link href="print3a.css" type="text/css" rel="stylesheet" media="print" />
  <link rel="shortcut icon" href="http://www.nachrichtentisch.de/favicon.ico" /> 
</head>
<body>

<div id="alles">
  <div id="header">
    <img alt="header" src="br_headeraus.png" width="100%"></div>
  <div id="navi4">
    <ul>
      <li><a href="index.php">Home</a> </li>
      <li><a href="#">Ressorts</a>
      <ul>
        <li><a href="index.php">Politik</a></li>
        <li><a href="regionales.php">Region</a></li>
        <li><a href="wirtschaft.php">Wirtschaft</a></li>
        <li><a href="kultur.php">Kultur</a></li>
        <li><a href="wissen.php">Wissen</a></li>
        <li><a href="sport.php">Sport</a></li>
      </ul>
      </li>
      <li><a href="aus.php">Ausland</a> </li>
      <li><a href="#">Ansichten</a>
      <ul>
        <li><a href="aus.php">Alles</a></li>
        <li><a href="aus_7.php">7 news</a></li>
        <li><a href="aus_5.php">5 news</a></li>
        <li><a href="aus_3.php">3 news</a></li>
        <li><a href="aus_1.php">Topthema</a></li>
      </ul>
      </li>
      <li><a href="impressum.php">Impressum</a> </li>
      <li><a href="presseschau.php">Intern</a> </li>
    </ul>
  </div>
  <div id="main">
    <div id="col1">
      <div class="border">
        <a href="http://www.bbbb.com/" target="_blank">
        <img alt="Hurriyet Daily News" height="35" src="logos/hudn.png" style="margin: 3px 0px 0px -45px; padding: 0px;" width="50" /></a>
        <ul>
<?php

$data 
file_get_contents("http://www.hurriyetdailynews.com/");

$data preg_replace("#\s{2,}#"""$data);
$data preg_replace("#<script(.+?)</script>#i"""$data);

preg_match_all("#<h2>(.+?)</h2>#i"$data$matches);
$wieviel count($matches[1]);

for (
$i 0$i <= $wieviel$i++) {

    
$daten preg_replace("#<h2><(.+?)></h2>#i""<li><$1></li>"$matches[1][$i]);
    
$posi1 stripos($daten"href=");
    
$posi2 stripos($daten"Default");

    if (
$posi1 !== false and $posi2 === false) {

        
$daten preg_replace("#<span([^>]+)>#"""$daten);
        
$daten preg_replace("#</span>#"""$daten);
        
$hreft preg_replace("#<a(.+?)href=\"([^>]+)\">(.+?)</a>#""$2"$daten);
        
$title preg_replace("#<a(.+?)href=\"([^>]+)\">(.+?)</a>#""$3"$daten);

        echo 
"\t\t<li><a href=\"".htmlspecialchars($hreftENT_QUOTES)."\" target=\"_blank\">".htmlspecialchars($titleENT_QUOTES)."</a></li>\n";

        unset(
$hreft);
        unset(
$title);
    }
}

?>
        </ul>
      </div>
    </div>
  </div>
</div>
</body>
</html>

Geändert von Melewo (14-01-2013 um 21:49 Uhr)
Mit Zitat antworten
  #86 (permalink)  
Alt 15-01-2013, 11:07
newbie1955
 Registrierter Benutzer
Links : Onlinestatus : newbie1955 ist offline
Registriert seit: Dec 2012
Beiträge: 241
newbie1955 befindet sich auf einem aufstrebenden Ast
Standard Dank

für Dein script, muss es noch anpassen, denn wenn ich das auf die h1-tags erweitere kommen auch a-tags statt title, da muss ich mir die Seite noch mal genau anschauen. Vor allem muss ich erstmal verstehen, was Du da machst. Ich habe preg_replace zwar auch mal benutzt, mir dann aber in einem Forum sagen lassen, dass nutze man nicht mehr. Ja, werde es mal studieren und sei herzlich bedankt.

Gruß
newbie1955
Mit Zitat antworten
  #87 (permalink)  
Alt 15-01-2013, 14:22
Melewo
 Registrierter Benutzer
Links : Onlinestatus : Melewo ist offline
Registriert seit: Jan 2013
Beiträge: 365
Melewo befindet sich auf einem aufstrebenden Ast
Standard

Zitat:
Zitat von newbie1955 Beitrag anzeigen
Vor allem muss ich erstmal verstehen, was Du da machst. Ich habe preg_replace zwar auch mal benutzt, mir dann aber in einem Forum sagen lassen, dass nutze man nicht mehr.
Kein Eingang von GET oder POST, den ich nicht kontrollieren würde:
PHP-Code:
// Erlaubte Zeichen, alles andere sollte entfernt werden.
$voneingang preg_replace("/[^a-zA-Z0-9]/"""$voneingang); 
Zum eigentlichen Script:
PHP-Code:
<?php

$data 
file_get_contents("http://www. ... .com/");

// Entfernt alle Zeilenumbrüche und mehr als 1 Leerzeichen in Reihe, 
// so dass aus dem String ein String in Reihe wird. 
$data preg_replace("#\s{2,}#"""$data);
// Wirft JS aus dem String heraus
$data preg_replace("#<script(.+?)</script>#i"""$data);
//Sucht nach allen Vorkommen von h2
preg_match_all("#<h2>(.+?)</h2>#i"$data$matches);
// Zählt die Vorkommen von h2
$wieviel count($matches[1]);

for (
$i 0$i $wieviel$i++) {
    
/* Diese Zeile wäre eigentlich in der Form nur erforderlich gewesen, 
    wenn $matches[0] weiter verarbeitet wird. In $matches[1] ist kein 
    h2-Tag mehr enthalten, so dass die Zeile eigentlich entfallen könnte 
    bzw.  $daten = $matches[1][$i] auch funktionieren sollte. */
    
$daten preg_replace("#<h2><(.+?)></h2>#i""<li><$1></li>"$matches[1][$i]);
    
// Kontrolle ob href und Default in $daten enthalten sind.
    
$posi1 stripos($daten"href=");
    
$posi2 stripos($daten"Default");

    if (
$posi1 !== false and $posi2 === false) {
        
// Entfernt span-Tags plus dessen Inhalt.
        
$daten preg_replace("#<span([^>]+)>#"""$daten);
        
$daten preg_replace("#</span>#"""$daten);
        
// Übernimmt URL und Linktext in $2 und $3, die id= wäre in $1 gespeichert
        // wird aber nicht benötigt.
        
$hreft preg_replace("#<a(.+?)href=\"([^>]+)\">(.+?)</a>#""$2"$daten);
        
$title preg_replace("#<a(.+?)href=\"([^>]+)\">(.+?)</a>#""$3"$daten);

        echo 
"\t\t<li><a href=\"".htmlspecialchars($hreftENT_QUOTES)."\" target=\"_blank\">".htmlspecialchars($titleENT_QUOTES)."</a></li>\n";
        
/* Damit nicht beim nächsten Schleifendurchlauf ein Wert vom letzten 
        Durchlauf hängen bleibt, was immer dann passieren kann, wenn ein 
        Wert beim nachfolgenden Durchlauf nicht gefunden oder übergeben wird, 
        werden die Variablen nach jedem Durchlauf zurückgesetzt. */
        
unset($hreft);
        unset(
$title);
    }
}

?>
Was mir gerade noch einfällt, Du müsstest auch noch prüfen ob es sich um Verweise mit relativen oder absoluten Pfadangaben handelt.
PHP-Code:
    $posi3 stripos($daten"http://www. ... .com");
     ...

        if (
$posi3 === false) {

        echo 
"\t\t<li><a href=\"http://www. ... .com".htmlspecialchars($hreftENT_QUOTES)."\" target=\"_blank\">".htmlspecialchars($titleENT_QUOTES)."</a></li>\n";
        }
        else {echo 
"\t\t<li><a href=\"".htmlspecialchars($hreftENT_QUOTES)."\" target=\"_blank\">".htmlspecialchars($titleENT_QUOTES)."</a></li>\n";
        } 

Geändert von Melewo (15-01-2013 um 16:55 Uhr)
Mit Zitat antworten
  #88 (permalink)  
Alt 16-01-2013, 14:21
newbie1955
 Registrierter Benutzer
Links : Onlinestatus : newbie1955 ist offline
Registriert seit: Dec 2012
Beiträge: 241
newbie1955 befindet sich auf einem aufstrebenden Ast
Standard

Danke noch mal für die Erklärung. es sind meist relative Adressen, werde es noch anpassen.
Mit Zitat antworten
Antwort

Lesezeichen


Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)
 

Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
str_replace Problem waldgeist PHP Developer Forum 25 22-09-2010 23:08
str_replace Problem ibeg PHP Developer Forum 3 24-07-2008 09:57
str_replace Problem! AciD-CoRe PHP Developer Forum 5 17-08-2006 16:10
Problem mit str_replace Arok PHP Developer Forum 2 08-08-2006 09:10
str_replace Problem !! goose PHP Developer Forum 6 23-01-2003 09:59

Themen-Optionen
Thema bewerten
Thema bewerten:

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are an


PHP News

ebiz-trader 7.5.0 mit PHP7 Unterstützung veröffentlicht
ebiz-trader 7.5.0 mit PHP7 Unterstützung veröffentlichtDie bekannte Marktplatzsoftware ebiz-trader ist in der Version 7.5.0 veröffentlicht worden.

28.05.2018 | Berni

Wissensbestand in Unternehmen
Wissensbestand in UnternehmenLebenslanges Lernen und Weiterbilden sichert Wissensbestand in Unternehmen

25.05.2018 | Berni


 

Aktuelle PHP Scripte

PHP Server Monitor

PHP Server Monitor ist ein Skript, das prüft, ob Ihre Websites und Server betriebsbereit sind.

11.09.2018 Berni | Kategorie: PHP/ Security
PHP WEB STATISTIK ansehen PHP WEB STATISTIK

Die PHP Web Statistik bietet Ihnen ein einfach zu konfigurierendes Script zur Aufzeichnung und grafischen und textuellen Auswertung der Besuchern Ihrer Webseite. Folgende zeitlichen Module sind verfügbar: Jahr, Monat, Tag, Wochentag, Stunde Folgende son

28.08.2018 phpwebstat | Kategorie: PHP/ Counter
Affilinator - Affilinet XML Produktlisten Skript

Die Affilinator Affilinet XML Edition ist ein vollautomatisches Skript zum einlesen und darstellen der Affili.net (Partnerprogramm Netzwerk) Produktlisten und Produktdaten. Im Grunde gibt der Webmaster seine Affilinet PartnerID ein und hat dann unmittelb

27.08.2018 freefrank@ | Kategorie: PHP/ Partnerprogramme
 Alle PHP Scripte anzeigen

Alle Zeitangaben in WEZ +2. Es ist jetzt 13:39 Uhr.