UTF-8 und deutsche Umlaute

**h3ll** · 24.01.2011, 15:07

DOMDocument decodiert die Umlaute automatisch. Du brauchst da nichts machen. Ich versteh den Sinn von deinem kompletten Code nicht.

**beginner123** · 24.01.2011, 15:11

Wie gesagt, ich möchte die Worte einzeln in ein Array schreiben. Ich dachte zuerst, ich scanne $HTMLDOM jeweils nach Spaces, aber das hat leider auch nicht funktioniert. Da scheinen auch andere zwischen den Wörtern zu sein.

Leider funktioniert ein Vergleich wie im folgenden nicht:
$z == utf8_encode("Ü") oder $z == "Ü"

**unset** · 24.01.2011, 15:21

Womit DomDocument übrigens überhaupt nicht klar kommt, sind Ligaturen. Viel Spaß damit!

**beginner123** · 24.01.2011, 15:48

@unset

Ich habe bei Wikipedia nachgeschaut, was das sein soll. Aber was hat das mit DOM zu tun? Verstehe ich leider noch nicht ganz.

**unset** · 24.01.2011, 16:00

Soviel und wenig wie Umlaute.

**fireweasel** · 25.01.2011, 11:15

Zitat von beginner123 Beitrag anzeigen

...

ich möchte von einigen HTML-Dateien eine komplette Wortliste anlegen. ...

PHP-Code:


   // ...

   $doc = new DOMDocument();

   if (@$doc->loadHTMLFile($myfile) == FALSE) {

      echo "Fehler bei der DOM-Objekt-Erzeugung von " . $myfile . "<br>";

   }



   $HTMLDOM = "";

   $elements = $doc->getElementsByTagName('body');

   // ...

Dann scanne ich den String in $HTMLDOM nach einzelnen Wörtern (diese können beinhalten: a..z A..Z 0..9 Sonderzeichen -) durch.

PHP-Code:


//... noch mehr PHP

Würde strip_tags() nicht ausreichen, um an den Teil des HTML zu kommen, in dem du die Wörter zählen möchtest?

PHP-Code:


$cdata = strip_tags(file_get_contents($myfile));



// das /u steht fuer UTF-8 (nicht fuer UNGREEDY):

$word_count = preg_match_all('/\pl+/u', $cdata, $hits);



// und wenn ich diesen Parameter von preg_match_all() 

// richtig in Erinnerung habe:

$komplett = $hits[0]; 

// ansonsten schaust du per var_dump($hits) mal nach

"/\pl+/" zählt jetzt nur Wörter, die ausschließlich aus Buchstaben bestehen. Für weitere Unicode-Zeichenklassen bitte das Handbuch befragen.

Eventuell wirst du vorher den Bereich einschränken wollen, bspw. auf das body-Element. Das kannst du mit 'ner DOM-Klasse erledigen. Ich würde für diesen Fall preg_match() benutzen.

Das mit den Ligaturen verstehe ich auch nicht, obwohl ich sie, vom typographischen Standpunkt aus betrachtet, durchaus als Bereicherung ansehe.

UTF-8 und deutsche Umlaute