php-resource



Zurück   PHP-Scripte PHP-Tutorials PHP-Jobs und vieles mehr > Entwicklung > PHP Developer Forum
 

Login

 
eingeloggt bleiben
star Jetzt registrieren   star Passwort vergessen
 

 

 


PHP Developer Forum Hier habt ihr die Möglichkeit, eure Skriptprobleme mit anderen Anwendern zu diskutieren. Seid so fair und beantwortet auch Fragen von anderen Anwendern. Dieses Forum ist sowohl für ANFÄNGER als auch für PHP-Profis! Fragen zu Laravel, YII oder anderen PHP-Frameworks.

Antwort
 
LinkBack Themen-Optionen Thema bewerten
  #1 (permalink)  
Alt 24-01-2011, 17:05
beginner123
 Registrierter Benutzer
Links : Onlinestatus : beginner123 ist offline
Registriert seit: Nov 2010
Beiträge: 42
beginner123 befindet sich auf einem aufstrebenden Ast
Standard UTF-8 und deutsche Umlaute

Hallo,

ich möchte von einigen HTML-Dateien eine komplette Wortliste anlegen. Die HTML-files sind im Header ohne Zeichensatz definiert:
Code:
<!doctype html public "-//W3C//DTD HTML 4.0 //EN">
Meine PHP-Datei ist mit UTF-8 definiert:
Code:
<?php header('Content-Type: text/html; charset=UTF-8');
Ich lese also die Datei in den String $HTML ein, bzw. den reinen Text in $HTMLDOM.
Code:
$HTML = "";
   $fp = @fopen($myfile, "r") or
      die ("Kann Datei " . $myfile . " nicht lesen.");
   while ($line = fgets($fp, 1024)) {
      $HTML = $HTML . " " . $line;
   }
   fclose($fp);


   $doc = new DOMDocument();
   if (@$doc->loadHTMLFile($myfile) == FALSE) {
      echo "Fehler bei der DOM-Objekt-Erzeugung von " . $myfile . "<br>";
   }

   $HTMLDOM = "";
   $elements = $doc->getElementsByTagName('body');
   if (!is_null($elements)) {
      foreach ($elements as $element) {
         $nodes = $element->childNodes;
         foreach ($nodes as $node) {
            if (strcmp($node->nodeName, "script") != 0) {
               $HTMLDOM = $HTMLDOM . " " . $node->nodeValue . " ";
            }
         }
      }
   }
Dann scanne ich den String in $HTMLDOM nach einzelnen Wörtern (diese können beinhalten: a..z A..Z 0..9 Sonderzeichen -) durch.

Code:
$pos = 0;
      $komplett = array();
      $text = "";
      while ($pos < strlen($HTMLDOM)) {
         $z = substr($HTMLDOM, $pos, 1);
         if ( ($z >= 'A' and $z <= "Z") or ($z >= 'a' and $z <= "z") or ($z >= '0' and $z <= "9") or
              $z == "-" or $z == utf8_encode("ü") or $z == utf8_encode("ö") or $z == utf8_encode("ä") or
              $z == utf8_encode("ß") or $z == utf8_encode("Ü") or $z == utf8_encode("Ö") or
              $z == utf8_encode("Ä") or $z == utf8_encode("&uuml;") or $z == utf8_encode("ouml;") or
              $z == utf8_encode("&auml;") or
              $z == utf8_encode("ß") or $z == utf8_encode("&Uuml;") or $z == utf8_encode("&Ouml;") or
              $z == utf8_encode("&Auml;") or $z == utf8_encode("Ã") ) {
            $text = $text . $z;
         } else {
            if (strlen($text) >= 2) {
               $komplett[] = $text;
            }
            $text = "";
         }
         $pos = $pos + 1;
      }
Leider funzt das mit den Sonderzeichen nicht. Ich habe es mit und ohne utf8_encode versucht. Irgendeinen Tipp, was ich falsch mache?

Danke!!!
Mit Zitat antworten
  #2 (permalink)  
Alt 24-01-2011, 17:07
h3ll
 Registrierter Benutzer
Links : Onlinestatus : h3ll ist offline
Registriert seit: Mar 2008
Beiträge: 3.780
h3ll befindet sich auf einem aufstrebenden Ast
Standard

DOMDocument decodiert die Umlaute automatisch. Du brauchst da nichts machen. Ich versteh den Sinn von deinem kompletten Code nicht.
Mit Zitat antworten
  #3 (permalink)  
Alt 24-01-2011, 17:11
beginner123
 Registrierter Benutzer
Links : Onlinestatus : beginner123 ist offline
Registriert seit: Nov 2010
Beiträge: 42
beginner123 befindet sich auf einem aufstrebenden Ast
Standard

Wie gesagt, ich möchte die Worte einzeln in ein Array schreiben. Ich dachte zuerst, ich scanne $HTMLDOM jeweils nach Spaces, aber das hat leider auch nicht funktioniert. Da scheinen auch andere zwischen den Wörtern zu sein.

Leider funktioniert ein Vergleich wie im folgenden nicht:
$z == utf8_encode("Ü") oder $z == "Ü"
Mit Zitat antworten
  #4 (permalink)  
Alt 24-01-2011, 17:21
unset
  Moderator
Links : Onlinestatus : unset ist offline
Registriert seit: Jan 2007
Ort: Düsseldorf
Beiträge: 3.782
unset befindet sich auf einem aufstrebenden Ast
Standard

Womit DomDocument übrigens überhaupt nicht klar kommt, sind Ligaturen. Viel Spaß damit!
Mit Zitat antworten
  #5 (permalink)  
Alt 24-01-2011, 17:48
beginner123
 Registrierter Benutzer
Links : Onlinestatus : beginner123 ist offline
Registriert seit: Nov 2010
Beiträge: 42
beginner123 befindet sich auf einem aufstrebenden Ast
Standard

@unset

Ich habe bei Wikipedia nachgeschaut, was das sein soll. Aber was hat das mit DOM zu tun? Verstehe ich leider noch nicht ganz.
Mit Zitat antworten
  #6 (permalink)  
Alt 24-01-2011, 18:00
unset
  Moderator
Links : Onlinestatus : unset ist offline
Registriert seit: Jan 2007
Ort: Düsseldorf
Beiträge: 3.782
unset befindet sich auf einem aufstrebenden Ast
Standard

Soviel und wenig wie Umlaute.
Mit Zitat antworten
  #7 (permalink)  
Alt 25-01-2011, 13:15
Benutzerbild von fireweasel fireweasel
 Registrierter Benutzer
Links : Onlinestatus : fireweasel ist offline
Registriert seit: Sep 2008
Ort: At home
Beiträge: 851
fireweasel wird schon bald berühmt werdenfireweasel wird schon bald berühmt werden
fireweasel eine Nachricht über AIM schicken fireweasel eine Nachricht über Yahoo! schicken
Standard

Zitat:
Zitat von beginner123 Beitrag anzeigen
...

ich möchte von einigen HTML-Dateien eine komplette Wortliste anlegen. ...

PHP-Code:
   // ...
   
$doc = new DOMDocument();
   if (@
$doc->loadHTMLFile($myfile) == FALSE) {
      echo 
"Fehler bei der DOM-Objekt-Erzeugung von " $myfile "<br>";
   }

   
$HTMLDOM "";
   
$elements $doc->getElementsByTagName('body');
   
// ... 
Dann scanne ich den String in $HTMLDOM nach einzelnen Wörtern (diese können beinhalten: a..z A..Z 0..9 Sonderzeichen -) durch.

PHP-Code:
//... noch mehr PHP 
Würde strip_tags() nicht ausreichen, um an den Teil des HTML zu kommen, in dem du die Wörter zählen möchtest?

PHP-Code:
$cdata strip_tags(file_get_contents($myfile));

// das /u steht fuer UTF-8 (nicht fuer UNGREEDY):
$word_count preg_match_all('/\pl+/u'$cdata$hits);

// und wenn ich diesen Parameter von preg_match_all() 
// richtig in Erinnerung habe:
$komplett $hits[0]; 
// ansonsten schaust du per var_dump($hits) mal nach 
"/\pl+/" zählt jetzt nur Wörter, die ausschließlich aus Buchstaben bestehen. Für weitere Unicode-Zeichenklassen bitte das Handbuch befragen.

Eventuell wirst du vorher den Bereich einschränken wollen, bspw. auf das body-Element. Das kannst du mit 'ner DOM-Klasse erledigen. Ich würde für diesen Fall preg_match() benutzen.

Das mit den Ligaturen verstehe ich auch nicht, obwohl ich sie, vom typographischen Standpunkt aus betrachtet, durchaus als Bereicherung ansehe.

Geändert von fireweasel (25-01-2011 um 14:52 Uhr)
Mit Zitat antworten
Antwort

Lesezeichen


Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)
 

Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
Deutsche Zeitformatierung hubudatu PHP Developer Forum 3 13-04-2007 15:51
Deutsche Küche herrmie Out of Order 1 25-10-2006 23:30
************y Deutsche rcfman User pages 12 21-07-2006 22:38
deutsche Bürokratie em-!x Out of Order 4 23-01-2006 11:52
Deutsche Umlaute in SQL QUERY umwandeln? antman SQL / Datenbanken 32 05-10-2004 16:22

Themen-Optionen
Thema bewerten
Thema bewerten:

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are an


PHP News

Projektmanagement Damals und Heute
Projektmanagement Damals und HeuteWerfen Sie einen Blick auf das, was sich verändert hat, und entdecken Sie, wo die Zukunft dieses Gebietes hinsteuert.

18.01.2021 | Berni

Arbeitsmanagement-Tools
Arbeitsmanagement-ToolsWarum jedes Team Arbeitsmanagement-Tools benötigt. Man schätzt, dass 25% eines durchschnittlichen Mitarbeiter-Tages durch ineffiziente Arbeit vergeudet werden.

11.12.2020 | Berni


 

Aktuelle PHP Scripte

ebiz-trader 6.0 - Das professionelle PHP Marktplatz Script ansehen ebiz-trader 6.0 - Das professionelle PHP Marktplatz Script

Mit unserer Lösungen können Sie nahezu jeden B2B / B2C Marktplatz betreiben den Sie sich vorstellen können. Ganz egal ob Sie einen Automarktplatz, Immobilenportal oder einfach einen Anzeigenmarkt betreiben möchten. Mit ebiz-trader können Sie Ihre Anforder

21.10.2020 Berni | Kategorie: PHP/ Anzeigenmarkt
Sendeplan Script inkl. Wunsch- und Grußbox + Kick-System + Bewerbungssystem

Das professionelle Sendeplan PHP Script inkl. Wunsch- und Grußbox + Kick-System für dein Webradio. Der übersichtliche Sendeplan bietet deinen Moderatoren und Zuhörern die perfekte Übersicht der aktuellen Shows! Du kannst nicht nur Sendungen eintragen, s

20.10.2020 drcomputer | Kategorie: PHP/ Web Radio
Newsmanager 2

Der Newsmanager 2 ist sehr Vielfältig und kann News schreiben, Newsletter versenden und RSS Feeds in einem erzeugen.

20.10.2020 Stephan_1972 | Kategorie: PHP/ News
 Alle PHP Scripte anzeigen

Alle Zeitangaben in WEZ +2. Es ist jetzt 19:01 Uhr.