preg_replace doppeltes Ersetzen verhindern und Probleme mit UTF-8

**wahsaga** · 04.10.2009, 20:25

Zitat von thebrain Beitrag anzeigen

Mein erstes Problem war allerdings schon, dass ich meine Texte temporär von UTF-8 in ISO-8859-1 umwandeln muss, damit Worte mit Umlauten auch erkannt werden.

Das ist schon mal massivster Quark.
Du hast höchstvermutlich deine Suchbegriffe nicht in UTF-8 vorliegen.
Anstatt jetzt den Text in ISO-irgendwas umzukodieren - was schnell bei Zeichen, die sich in letzerem gar nicht abbilden lassen, zu Verlusten führt - solltest du dafür sorgen, dass deine Suchbegriffe auch in UTF-8 vorliegen. Und zwar nicht, in dem du sie erst zur Laufzeit mit utf8_encode behandelst - sondern in dem du dafür sorgst, dass sie schon dort, wo sie herkommen, in UTF-8 vorliegen.

Neben dem ersten genannten Problem, taucht jetzt noch ein zweites auf. Wenn Worte entweder mit einer Zahl beginnen (z.B. "15er Nuss") oder mit einem Bindestrich verbunden sind (z.B. Bau-Irgendwas), dann würden hier "Nuss" und "Irgendwas" jeweils auch noch mal ersetzt werden.

Wieso - stehen sie nicht in einem Tag, nachdem du zum ersten Mal ersetzt hast?
Dann sollten sie doch kein zweites Mal ersetzt werden, nach dem, was du zuvor geschrieben hast.

**thebrain** · 04.10.2009, 20:46

Zitat von wahsaga Beitrag anzeigen

Wieso - stehen sie nicht in einem Tag, nachdem du zum ersten Mal ersetzt hast?
Dann sollten sie doch kein zweites Mal ersetzt werden, nach dem, was du zuvor geschrieben hast.

Doch, aber das wird nicht erkannt. Weiss du, was \b also word boundary abdeckt? Es scheint, als ob Zahlen, Bindestriche und Umlaute nicht als solches erkannt werden.

**wahsaga** · 04.10.2009, 21:07

Zitat von thebrain Beitrag anzeigen

Weiss du, was \b also word boundary abdeckt? Es scheint, als ob Zahlen, Bindestriche und Umlaute nicht als solches erkannt werden.

Das - Überraschung - steht im Manual: http://www.php.net/manual/en/regexp.....backslash.php

**thebrain** · 04.10.2009, 22:23

Ja, danke, hab verstanden. Problem ist wohl, dass man mit setlocale die Umgebung auf Deutsch setzen muss. Hatte ich auch gemacht, ändert aber nichts. Ich habe jetzt \b nachtgebaut wie folgt:

PHP-Code:


([\s,.!?-])

Das geht auch und danke für die Mühe und gute Nacht.

**AmicaNoctis** · 04.10.2009, 23:18

Hallo,

Zitat von thebrain Beitrag anzeigen

Ich habe jetzt \b nachtgebaut wie folgt:

PHP-Code:


([\s,.!?-])

das mag zwar funktionieren, hat aber nichts mehr mit "word boundary" zu tun, da "word boundary" eine Assertion ist und deine Variante eine stinknormale Zeichenklasse für ein selbstdefiniertes Nicht-Wort-Zeichen. Dabei fällt auf, dass z. B. Klammern fehlen. Wenn du das nur definiert hast, um den UTF-8-Byte-Sequenzen aus dem Weg zu gehen, hättest du noch zwei andere (imho sogar bessere Möglichkeiten)

- das UTF-8-Problem ist für die PCRE-Funktionen keins mehr, wenn man den u-Modifikator verwendet. (empfohlen)
- du ergänzt die normalen Wort-Zeichen um \x80-\xff (unsauber) und baust dir damit eine eigene \b-Assertion:

Code:

(?<=[\w\x80-xff])(?=\W|$)|(?<=\W|^)(?=[\w\x80-xff])

Gruß,

Amica

**thebrain** · 05.10.2009, 00:36

Klammern hatte ich zunächst vergessen, ja, aber ob es nun eine Assertion ist oder nicht ist für meine Fall ziemlich unerheblich. Der u-Modifikator konnte das Problem auch nicht lösen und so habe ich wenigstens die Möglichkeit selbst festzulegen, welche Zeichen eingeschlossen sein sollen.

**AmicaNoctis** · 05.10.2009, 00:45

Zitat von thebrain Beitrag anzeigen

ob es nun eine Assertion ist oder nicht ist für meine Fall ziemlich unerheblich.

Ok.

Zitat von thebrain Beitrag anzeigen

Der u-Modifikator konnte das Problem auch nicht lösen

Im Zusammenhang mit \b nicht, da geb ich dir Recht und das hatte ich übersehen. Dazu müsste man zusätzlich noch die Unicode character properties verwenden oder sich aus denen eine word boundary assertion zurechtbauen.

preg_replace doppeltes Ersetzen verhindern und Probleme mit UTF-8