Einzelnen Beitrag anzeigen
  #1 (permalink)  
Alt 23-12-2012, 21:05
freebi
 Registrierter Benutzer
Links : Onlinestatus : freebi ist offline
Registriert seit: Dec 2012
Beiträge: 1
freebi befindet sich auf einem aufstrebenden Ast
Standard Problem mit preg_match und Umlauten

Hallo,

per Simple HTML Dom hole ich den Plaintext einer bestimmten Webseite ab und Werte dort häufigkeit verschiedener Wörter aus. Die einzelnen Wörter inklusive derer Häufigkeiten werden dann in einem Array gespeichert.

Hierbei will ich natürlich noch unerwünschte Stringketten (die Keine "Wörter" darstellen) aussen vor lassen. Dies mache ich, indem ich jedes einzelne Wort im Array nochmal prüfe, wie folgt:

PHP-Code:
preg_match('/^[A-Za-z_0-9!#\$%&\'\*\+\/=\?_-]{1,40}$/'$new_term)) 
Jedoch werden hier keine Umlaute erkannt. Mit

PHP-Code:
preg_match('/^[A-Za-z_0-9öäüÖÄÜ!#\$%&\'\*\+\/=\?_-]{1,40}$/Ui'$new_term
funktioniert es auch nicht. Ich habe nun schon lange herumgesucht aber nichts wirklich hilfreiches gefunden außer dass auch die Codierung von Quelle und Regexp gleich sein muss. Ich habe auch verschiedene Varianten getestet und eine Lösung gefunden mit der es teilweise funktioniert (Codierung des zu durchsuchenden Textes geändert). Dann bekomme ich jedoch ein "?" an die Stelle des Sonderzeichens und Großbuchstaben (bei den Umlauten) werden nicht gefunden.

Gibt es eventuell eine clevere Lösung für mein Problem?

Danke schonmal für die Antworten!

Grüße
Mit Zitat antworten