str_replace-Problem
Collapse
X
-
Danke noch mal für die Erklärung. es sind meist relative Adressen, werde es noch anpassen.
-
Originally posted by newbie1955 View PostVor allem muss ich erstmal verstehen, was Du da machst. Ich habe preg_replace zwar auch mal benutzt, mir dann aber in einem Forum sagen lassen, dass nutze man nicht mehr.
PHP Code:// Erlaubte Zeichen, alles andere sollte entfernt werden.
$voneingang = preg_replace("/[^a-zA-Z0-9]/", "", $voneingang);
PHP Code:<?php
$data = file_get_contents("http://www. ... .com/");
// Entfernt alle Zeilenumbrüche und mehr als 1 Leerzeichen in Reihe,
// so dass aus dem String ein String in Reihe wird.
$data = preg_replace("#\s{2,}#", "", $data);
// Wirft JS aus dem String heraus
$data = preg_replace("#<script(.+?)</script>#i", "", $data);
//Sucht nach allen Vorkommen von h2
preg_match_all("#<h2>(.+?)</h2>#i", $data, $matches);
// Zählt die Vorkommen von h2
$wieviel = count($matches[1]);
for ($i = 0; $i < $wieviel; $i++) {
/* Diese Zeile wäre eigentlich in der Form nur erforderlich gewesen,
wenn $matches[0] weiter verarbeitet wird. In $matches[1] ist kein
h2-Tag mehr enthalten, so dass die Zeile eigentlich entfallen könnte
bzw. $daten = $matches[1][$i] auch funktionieren sollte. */
$daten = preg_replace("#<h2><(.+?)></h2>#i", "<li><$1></li>", $matches[1][$i]);
// Kontrolle ob href und Default in $daten enthalten sind.
$posi1 = stripos($daten, "href=");
$posi2 = stripos($daten, "Default");
if ($posi1 !== false and $posi2 === false) {
// Entfernt span-Tags plus dessen Inhalt.
$daten = preg_replace("#<span([^>]+)>#", "", $daten);
$daten = preg_replace("#</span>#", "", $daten);
// Übernimmt URL und Linktext in $2 und $3, die id= wäre in $1 gespeichert
// wird aber nicht benötigt.
$hreft = preg_replace("#<a(.+?)href=\"([^>]+)\">(.+?)</a>#", "$2", $daten);
$title = preg_replace("#<a(.+?)href=\"([^>]+)\">(.+?)</a>#", "$3", $daten);
echo "\t\t<li><a href=\"".htmlspecialchars($hreft, ENT_QUOTES)."\" target=\"_blank\">".htmlspecialchars($title, ENT_QUOTES)."</a></li>\n";
/* Damit nicht beim nächsten Schleifendurchlauf ein Wert vom letzten
Durchlauf hängen bleibt, was immer dann passieren kann, wenn ein
Wert beim nachfolgenden Durchlauf nicht gefunden oder übergeben wird,
werden die Variablen nach jedem Durchlauf zurückgesetzt. */
unset($hreft);
unset($title);
}
}
?>
PHP Code:$posi3 = stripos($daten, "http://www. ... .com");
...
if ($posi3 === false) {
echo "\t\t<li><a href=\"http://www. ... .com".htmlspecialchars($hreft, ENT_QUOTES)."\" target=\"_blank\">".htmlspecialchars($title, ENT_QUOTES)."</a></li>\n";
}
else {echo "\t\t<li><a href=\"".htmlspecialchars($hreft, ENT_QUOTES)."\" target=\"_blank\">".htmlspecialchars($title, ENT_QUOTES)."</a></li>\n";
}
Last edited by Melewo; 15-01-2013, 15:55.
Leave a comment:
-
Dank
für Dein script, muss es noch anpassen, denn wenn ich das auf die h1-tags erweitere kommen auch a-tags statt title, da muss ich mir die Seite noch mal genau anschauen. Vor allem muss ich erstmal verstehen, was Du da machst. Ich habe preg_replace zwar auch mal benutzt, mir dann aber in einem Forum sagen lassen, dass nutze man nicht mehr. Ja, werde es mal studieren und sei herzlich bedankt.
Gruß
newbie1955
Leave a comment:
-
Jetzt habe ich auch noch etwas zusammengespielt, funktioniert zumindest mit der Anzeige der Zeichen richtig. Bei den Meta-Tags hab ich nichts verändert, das kannst Du alleine machen.
PHP Code:<?php
ini_set("user_agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0");
header("Content-Type: text/html; charset=utf-8");
error_reporting(E_ALL);
?>
<!DOCTYPE html>
<!--[if lt IE 7 ]><html lang="de" class="no-js ie6" xmlns="http://www.w3.org/2000/xhtml"><![endif]-->
<!--[if IE 7 ]><html lang="de" class="no-js ie7" xmlns="http://www.w3.org/2000/xhtml"><![endif]-->
<!--[if IE 8 ]><html lang="de" class="no-js ie8" xmlns="http://www.w3.org/2000/xhtml"><![endif]-->
<!--[if IE 9 ]><html lang="de" class="no-js ie9" xmlns="http://www.w3.org/2000/xhtml"><![endif]-->
<!--[if (gt IE 9)|!(IE)]><!--><html lang="de" class="no-js" xmlns="http://www.w3.org/2000/xhtml"><!--<![endif]-->
<head>
<title>Testseite</title>
<meta name="description" content="Die ..... international" />
<meta name="Author" content="Test" />
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8"/>
<meta name="content-language" content="de" />
<meta name="language" content="deutsch, de" />
<link href="navi1.css" type="text/css" rel="stylesheet" media="screen" />
<link href="print3a.css" type="text/css" rel="stylesheet" media="print" />
<link rel="shortcut icon" href="http://www.nachrichtentisch.de/favicon.ico" />
</head>
<body>
<div id="alles">
<div id="header">
<img alt="header" src="br_headeraus.png" width="100%"></div>
<div id="navi4">
<ul>
<li><a href="index.php">Home</a> </li>
<li><a href="#">Ressorts</a>
<ul>
<li><a href="index.php">Politik</a></li>
<li><a href="regionales.php">Region</a></li>
<li><a href="wirtschaft.php">Wirtschaft</a></li>
<li><a href="kultur.php">Kultur</a></li>
<li><a href="wissen.php">Wissen</a></li>
<li><a href="sport.php">Sport</a></li>
</ul>
</li>
<li><a href="aus.php">Ausland</a> </li>
<li><a href="#">Ansichten</a>
<ul>
<li><a href="aus.php">Alles</a></li>
<li><a href="aus_7.php">7 news</a></li>
<li><a href="aus_5.php">5 news</a></li>
<li><a href="aus_3.php">3 news</a></li>
<li><a href="aus_1.php">Topthema</a></li>
</ul>
</li>
<li><a href="impressum.php">Impressum</a> </li>
<li><a href="presseschau.php">Intern</a> </li>
</ul>
</div>
<div id="main">
<div id="col1">
<div class="border">
<a href="http://www.bbbb.com/" target="_blank">
<img alt="Hurriyet Daily News" height="35" src="logos/hudn.png" style="margin: 3px 0px 0px -45px; padding: 0px;" width="50" /></a>
<ul>
<?php
$data = file_get_contents("http://www.hurriyetdailynews.com/");
$data = preg_replace("#\s{2,}#", "", $data);
$data = preg_replace("#<script(.+?)</script>#i", "", $data);
preg_match_all("#<h2>(.+?)</h2>#i", $data, $matches);
$wieviel = count($matches[1]);
for ($i = 0; $i <= $wieviel; $i++) {
$daten = preg_replace("#<h2><(.+?)></h2>#i", "<li><$1></li>", $matches[1][$i]);
$posi1 = stripos($daten, "href=");
$posi2 = stripos($daten, "Default");
if ($posi1 !== false and $posi2 === false) {
$daten = preg_replace("#<span([^>]+)>#", "", $daten);
$daten = preg_replace("#</span>#", "", $daten);
$hreft = preg_replace("#<a(.+?)href=\"([^>]+)\">(.+?)</a>#", "$2", $daten);
$title = preg_replace("#<a(.+?)href=\"([^>]+)\">(.+?)</a>#", "$3", $daten);
echo "\t\t<li><a href=\"".htmlspecialchars($hreft, ENT_QUOTES)."\" target=\"_blank\">".htmlspecialchars($title, ENT_QUOTES)."</a></li>\n";
unset($hreft);
unset($title);
}
}
?>
</ul>
</div>
</div>
</div>
</div>
</body>
</html>Last edited by Melewo; 14-01-2013, 20:49.
Leave a comment:
-
Originally posted by newbie1955 View PostHast Du denn schon mal was von türkischem utf-8 gehört????
Unicode/UTF-8-Zeichentabelle
Leave a comment:
-
Danke
aber für Deine viele Mühe. Das merkwürdige ist ja, wenn man deren feed der rein türkischen hurriyet-Seite mit magpie einliest, funktioniert alles problemlos. Nur diese englische Seite macht Probleme. Hast Du denn schon mal was von türkischem utf-8 gehört????
Leave a comment:
-
Nun habe ich mir auch noch einmal einige Stunden die Zeit vertrödelt, bekomme es auch nicht hin. Diese Warnungen bleiben bei mir, egal wie viel ich da schon vorher filtere:
error parsing attribute name in Entity, line: 1
Unexpected end tag : link in Entity, line: 1
Leave a comment:
-
error
Es kamen vor allem solche Fehler:
Code:Warning: DOMDocument::loadHTML(): htmlParseEntityRef: no name in Entity, line: 11 in /customers/6/d/c/testseite.php on line 705 Warning: DOMDocument::loadHTML(): Unexpected end tag : link in Entity, line: 15 in /customers/6/d/c/testseite.php Warning: DOMDocument::loadHTML(): htmlParseEntityRef: expecting ';' in Entity, line: 1328
Leave a comment:
-
Originally posted by newbie1955 View PostNaja, langsam gehen mir die Ideen aus
Nehme doch erst einmal error_reporting(E_ALL); und schau welche Fehler da bemeckert werden und ob die sich mit dem anderen Beispiel umgehen lassen. Doch ist es besser wenigstens die häufigsten und gröbsten Fehler zu beseitigen, als an den Symptomen umher zu basteln.
Leave a comment:
-
Danke
für Deine Antwort. Naja, langsam gehen mir die Ideen aus (zumal ich aufgrund meines Anfängerstatus' sowie nicht so viele dazu habe). Und alles übrige habe ich ja versucht. Gibt es nicht auch eine Art türkisches UTF-8. Irgendwo beim Googeln habe ich mal sowas gesehen http://www.html.de/php/28660-tuerkische-zeichen.html, ließ sich aber nichts davon so richtig umsetzen.
Leave a comment:
-
Nee, gehe doch einmal Schrittweise vor und suche nach den Ursachen. Also $data wird ja noch mit richtig dargestellten Zeichen ausgegeben. Anschließend beginnt doch erst der Salat und der muss Ursachen haben.
Leave a comment:
-
$title mit htmlspecialchars geändert
....aber das ändert leider auch nichts, also doch alle Zeichen einzeln ändern?
Leave a comment:
-
Originally posted by newbie1955 View PostPHP Code:echo "<li><a href=\"".htmlspecialchars($hreft)."\" target='_blank'>$title</a></li>";
Meiner augenblicklichen Meinung nach müsste bereits $data gefiltert werden, nur wie am besten? Bei der Verwendung von strip_tags() würde wohl für DOM nichts mehr übrig bleiben. Was da ankommt, dass scheint nun einmal kein valides HTML zu sein. Außerdem kannst Du Dich nicht auf die Quellen verlassen. So sollte es zumindest JS ausfiltern:
PHP Code:$data = file_get_contents('http://www.hurriyetdailynews.com/');
$data = preg_replace("#\s{2,}#", "", $data);
$data = preg_replace("#<script(.+?)</script>#i", "", $data);
$doc = new DOMDocument();
$doc->loadHTML($data);
Last edited by Melewo; 14-01-2013, 13:38.
Leave a comment:
-
aktueller code
Originally posted by h3ll View PostDann zeig mal den aktuellen Code.PHP Code:
<?php
$data = file_get_contents('http://www.hurriyetdailynews.com/');
$doc = new DOMDocument();
$doc->loadHTML($data);
$xPath = new DOMXPath($doc);
$zaehler = 0;
foreach ($xPath->query('//h2/a') as $element)
{
$href = $element->getAttribute('href');
$hreft = "http://www.hurriyetdailynews.com" . $href;
$class = $element->getAttribute('class');
$title = $element->nodeValue;
If ($zaehler <= 6)
{
echo "<li><a href=\"".htmlspecialchars($hreft)."\" target='_blank'>$title</a></li>";
$zaehler++;
}
}
foreach ($xPath->query('//h1/a') as $element)
{
$href = $element->getAttribute('href');
$hreft = "http://www.hurriyetdailynews.com" . $href;
$class = $element->getAttribute('class');
$title = $element->nodeValue;
If ($zaehler <= 15)
{
/* echo "<li><a href=$hreft target='_blank'>$title</a></li>"; */
echo "<li><a href=\"".htmlspecialchars($hreft)."\" target='_blank'>$title</a></li>";
$zaehler++;
}
}
?>
HTML Code:<?php header('Content-Type: text/html; charset=UTF-8'); ?> <!DOCTYPE html > <!--[if lt IE 7 ]><html lang="de" class="no-js ie6" xmlns="http://www.w3.org/2000/xhtml"><![endif]--> <!--[if IE 7 ]><html lang="de" class="no-js ie7" xmlns="http://www.w3.org/2000/xhtml"><![endif]--> <!--[if IE 8 ]><html lang="de" class="no-js ie8" xmlns="http://www.w3.org/2000/xhtml"><![endif]--> <!--[if IE 9 ]><html lang="de" class="no-js ie9" xmlns="http://www.w3.org/2000/xhtml"><![endif]--> <!--[if (gt IE 9)|!(IE)]><!--><html lang="de" class="no-js" xmlns="http://www.w3.org/1999/xhtml"><!--<![endif]--> <html lang="de"> <head> <title>Test Ausland</title> <!-- Mimic Internet Explorer 9 --> <!--[if IE]><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"><![endif]--> <meta name="description" content="Die Nachrichten-Übersicht international " /> <meta name="Author" content="test" /> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"/> <link href="navi1.css" type="text/css" rel="stylesheet" media="screen" /> <link href="print3a.css" type="text/css" rel="stylesheet" media="print" />
Leave a comment:
-
Benutzt Du eigentlich error_reporting(E_ALL); und kommen da Warnungen?
Wenn ich Dein Script nehme, so kommt da bei mir:
htmlParseEntityRef: no name in Entity
Unexpected end tag : link in Entity
PHP Code:$doc->loadHTML($data);
PHP Code:$data = file_get_contents($url);
$doc = new DOMDocument();
$doc->recover = true;
$dom->strictErrorChecking = false;
$doc->loadHTML($data);
Leave a comment:
Leave a comment: