- Ad -
php-resource



Zurück   PHP-Scripte PHP-Tutorials PHP-Jobs und vieles mehr > Entwicklung > PHP Developer Forum
 

Login

 
eingeloggt bleiben
star Jetzt registrieren   star Passwort vergessen
 

 

 

 


PHP Developer Forum Hier habt ihr die Möglichkeit, eure Skriptprobleme mit anderen Anwendern zu diskutieren. Seid so fair und beantwortet auch Fragen von anderen Anwendern. Dieses Forum ist sowohl für ANFÄNGER als auch für PHP-Profis! Post your PHP questions here!

Antwort
 
LinkBack Themen-Optionen Thema bewerten
  #1 (permalink)  
Alt 04-10-2009, 21:20
thebrain
 Registrierter Benutzer
Links : Onlinestatus : thebrain ist offline
Registriert seit: Mar 2002
Beiträge: 527
thebrain ist zur Zeit noch ein unbeschriebenes Blatt
Standard preg_replace doppeltes Ersetzen verhindern und Probleme mit UTF-8

Hallo und guten Abend.

Ich arbeite gerade an einem Lexikon in dem die einzelnen Einträge automatisch untereinander verlinkt werden. Kommt also der eine Begriff in der Erklärung zum anderen Begriff vor, dann wird dieser automatisch verlinkt. Soweit kein Problem. Mein erstes Problem war allerdings schon, dass ich meine Texte temporär von UTF-8 in ISO-8859-1 umwandeln muss, damit Worte mit Umlauten auch erkannt werden. Das geht zwar jetzt, nicht aber wenn der letzte Buchstabe ein Umlaut ist.
Zweites Problem ist, dass ich die Begriffe von lang nach kurz durchlaufen werden müssen. Dadurch wird natürlich mehr Relevanz erzielt, da auch Begriffe die aus mehreren Wörtern bestehen ersetzt werden. Hier muss natürlich verhindert werden, dass Begriffe doppelt ersetzt werden. Das habe ich gelöst, indem ich Abfrage ob sich der zu ersetzende Begriff in einem <TAG> befindet. Der Code sieht wie folgt aus:

PHP-Code:
preg_replace("~\b($word)\b(?![^<]*>)~si", ..., ...); 
Neben dem ersten genannten Problem, taucht jetzt noch ein zweites auf. Wenn Worte entweder mit einer Zahl beginnen (z.B. "15er Nuss") oder mit einem Bindestrich verbunden sind (z.B. Bau-Irgendwas), dann würden hier "Nuss" und "Irgendwas" jeweils auch noch mal ersetzt werden. Ansonsten, wie bei z.B. "großes Bauwerk" , würde nur der gesamte Begriff ersetzt werden und nicht Bauwerk noch mal, auch wenn es im Lexikon einzeln vorkommt. Hat jemand eine Idee, wo mein Fehler liegt?

Viele Grüße

Michael
__________________
nein?

Geändert von thebrain (04-10-2009 um 21:22 Uhr)
Mit Zitat antworten
  #2 (permalink)  
Alt 04-10-2009, 21:25
wahsaga
  Moderator
Links : Onlinestatus : wahsaga ist offline
Registriert seit: Sep 2001
Beiträge: 24.486
wahsaga befindet sich auf einem aufstrebenden Ast
Standard

Zitat:
Zitat von thebrain Beitrag anzeigen
Mein erstes Problem war allerdings schon, dass ich meine Texte temporär von UTF-8 in ISO-8859-1 umwandeln muss, damit Worte mit Umlauten auch erkannt werden.
Das ist schon mal massivster Quark.
Du hast höchstvermutlich deine Suchbegriffe nicht in UTF-8 vorliegen.
Anstatt jetzt den Text in ISO-irgendwas umzukodieren - was schnell bei Zeichen, die sich in letzerem gar nicht abbilden lassen, zu Verlusten führt - solltest du dafür sorgen, dass deine Suchbegriffe auch in UTF-8 vorliegen. Und zwar nicht, in dem du sie erst zur Laufzeit mit utf8_encode behandelst - sondern in dem du dafür sorgst, dass sie schon dort, wo sie herkommen, in UTF-8 vorliegen.

Zitat:
Neben dem ersten genannten Problem, taucht jetzt noch ein zweites auf. Wenn Worte entweder mit einer Zahl beginnen (z.B. "15er Nuss") oder mit einem Bindestrich verbunden sind (z.B. Bau-Irgendwas), dann würden hier "Nuss" und "Irgendwas" jeweils auch noch mal ersetzt werden.
Wieso - stehen sie nicht in einem Tag, nachdem du zum ersten Mal ersetzt hast?
Dann sollten sie doch kein zweites Mal ersetzt werden, nach dem, was du zuvor geschrieben hast.
__________________
I don't believe in rebirth. Actually, I never did in my whole lives.
Mit Zitat antworten
  #3 (permalink)  
Alt 04-10-2009, 21:46
thebrain
 Registrierter Benutzer
Links : Onlinestatus : thebrain ist offline
Registriert seit: Mar 2002
Beiträge: 527
thebrain ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Zitat:
Zitat von wahsaga Beitrag anzeigen
Wieso - stehen sie nicht in einem Tag, nachdem du zum ersten Mal ersetzt hast?
Dann sollten sie doch kein zweites Mal ersetzt werden, nach dem, was du zuvor geschrieben hast.
Doch, aber das wird nicht erkannt. Weiss du, was \b also word boundary abdeckt? Es scheint, als ob Zahlen, Bindestriche und Umlaute nicht als solches erkannt werden.
__________________
nein?
Mit Zitat antworten
  #4 (permalink)  
Alt 04-10-2009, 22:07
wahsaga
  Moderator
Links : Onlinestatus : wahsaga ist offline
Registriert seit: Sep 2001
Beiträge: 24.486
wahsaga befindet sich auf einem aufstrebenden Ast
Standard

Zitat:
Zitat von thebrain Beitrag anzeigen
Weiss du, was \b also word boundary abdeckt? Es scheint, als ob Zahlen, Bindestriche und Umlaute nicht als solches erkannt werden.
Das - Überraschung - steht im Manual: http://www.php.net/manual/en/regexp.....backslash.php
__________________
I don't believe in rebirth. Actually, I never did in my whole lives.
Mit Zitat antworten
  #5 (permalink)  
Alt 04-10-2009, 23:23
thebrain
 Registrierter Benutzer
Links : Onlinestatus : thebrain ist offline
Registriert seit: Mar 2002
Beiträge: 527
thebrain ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Ja, danke, hab verstanden. Problem ist wohl, dass man mit setlocale die Umgebung auf Deutsch setzen muss. Hatte ich auch gemacht, ändert aber nichts. Ich habe jetzt \b nachtgebaut wie folgt:

PHP-Code:
([s,.!?-]) 
Das geht auch und danke für die Mühe und gute Nacht.
__________________
nein?
Mit Zitat antworten
  #6 (permalink)  
Alt 05-10-2009, 00:18
AmicaNoctis
  Moderatorin
Links : Onlinestatus : AmicaNoctis ist offline
Registriert seit: Jul 2009
Beiträge: 5.550
Blog-Einträge: 9
AmicaNoctis sorgt für eine eindrucksvolle AtmosphäreAmicaNoctis sorgt für eine eindrucksvolle Atmosphäre
Standard

Hallo,

Zitat:
Zitat von thebrain Beitrag anzeigen
Ich habe jetzt \b nachtgebaut wie folgt:

PHP-Code:
([s,.!?-]) 
das mag zwar funktionieren, hat aber nichts mehr mit "word boundary" zu tun, da "word boundary" eine Assertion ist und deine Variante eine stinknormale Zeichenklasse für ein selbstdefiniertes Nicht-Wort-Zeichen. Dabei fällt auf, dass z. B. Klammern fehlen. Wenn du das nur definiert hast, um den UTF-8-Byte-Sequenzen aus dem Weg zu gehen, hättest du noch zwei andere (imho sogar bessere Möglichkeiten)

- das UTF-8-Problem ist für die PCRE-Funktionen keins mehr, wenn man den u-Modifikator verwendet. (empfohlen)
- du ergänzt die normalen Wort-Zeichen um \x80-\xff (unsauber) und baust dir damit eine eigene \b-Assertion:
Code:
(?<=[\w\x80-xff])(?=\W|$)|(?<=\W|^)(?=[\w\x80-xff])
Gruß,

Amica

Geändert von AmicaNoctis (05-10-2009 um 00:30 Uhr)
Mit Zitat antworten
  #7 (permalink)  
Alt 05-10-2009, 01:36
thebrain
 Registrierter Benutzer
Links : Onlinestatus : thebrain ist offline
Registriert seit: Mar 2002
Beiträge: 527
thebrain ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Klammern hatte ich zunächst vergessen, ja, aber ob es nun eine Assertion ist oder nicht ist für meine Fall ziemlich unerheblich. Der u-Modifikator konnte das Problem auch nicht lösen und so habe ich wenigstens die Möglichkeit selbst festzulegen, welche Zeichen eingeschlossen sein sollen.
__________________
nein?
Mit Zitat antworten
  #8 (permalink)  
Alt 05-10-2009, 01:45
AmicaNoctis
  Moderatorin
Links : Onlinestatus : AmicaNoctis ist offline
Registriert seit: Jul 2009
Beiträge: 5.550
Blog-Einträge: 9
AmicaNoctis sorgt für eine eindrucksvolle AtmosphäreAmicaNoctis sorgt für eine eindrucksvolle Atmosphäre
Standard

Zitat:
Zitat von thebrain Beitrag anzeigen
ob es nun eine Assertion ist oder nicht ist für meine Fall ziemlich unerheblich.
Ok.

Zitat:
Zitat von thebrain Beitrag anzeigen
Der u-Modifikator konnte das Problem auch nicht lösen
Im Zusammenhang mit \b nicht, da geb ich dir Recht und das hatte ich übersehen. Dazu müsste man zusätzlich noch die Unicode character properties verwenden oder sich aus denen eine word boundary assertion zurechtbauen.
Mit Zitat antworten
Antwort

Lesezeichen


Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)
 

Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
preg_replace doppeltes ersetzen verhindern Olli4 PHP Developer Forum 6 19-11-2008 13:06
Doppeltes Ausführen von Cronjobs zur selben Zeit verhindern da_chris BRAINSTORMING PHP/SQL/HTML/JS/CSS 5 16-02-2006 16:38
preg_replace soll $ ersetzen theangel PHP Developer Forum 2 11-12-2005 16:47
Bei doppeltem Auslesen doppeltes Anzeigen verhindern Maranello-550 SQL / Datenbanken 4 01-08-2003 14:40
Doppeltes auslesen verhindern (aus zwei spalten) Maranello-550 SQL / Datenbanken 6 07-07-2003 07:13

Themen-Optionen
Thema bewerten
Thema bewerten:

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are an


PHP News

MariaDB 5.5 veröffentlicht
MariaDB 5.5 veröffentlichtDie freie MySQL-Alternative MariaDB wurde in der stabilen Version 5.5.23 veröffentlicht und soll einige Verbesserungen gegenüber Oracles Communityversion von MySQL mitbringen.

16.04.2012 | Berni

Deutsche Yii Framework Community
Deutsche Yii Framework CommunitySeit dem 19.03.2012 gibt es für die Yii PHP Framework Community ein deutsches Zuhause.

20.03.2012 | dhcomputer

 

Aktuelle PHP Scripte

EM 2012 Tipp-Spiel ansehen EM 2012 Tipp-Spiel

Online Tipp-Spiel zur Fussball Europameisterschaft 2012, basierend auf php-Script mit hinterlegter mySql-Datenbank

27.05.2012 tippimnetz | Kategorie: PHP/ Spiele
Advanced Login ansehen Advanced Login

Login-System und Kundenverwaltung, die sich spielend leicht in bestehende Webseiten einbauen lässt und einen enormen Funktionsumfang bietet. Ihre eigene Webseite muss mit Advanced Login nicht umständlich an ein fertiges System angepasst werden.

25.05.2012 Madden | Kategorie: PHP/ Kundenverwaltung
BROM CMS/BelCal 3 ansehen BROM CMS/BelCal 3

Spezielles CMS für Betreiber von Ferienwohnungen. Komplette Seitenerstellung online, Verwaltung mehrerer Objekte, Reservierungssystem mit sofortigem Abgleich im Belegungskalender und vieles mehr bietet dieses Content Management System.

25.05.2012 belcal2 | Kategorie: PHP/ CMS
 Alle PHP Scripte anzeigen

Alle Zeitangaben in WEZ +2. Es ist jetzt 12:31 Uhr.