Barrierefreiheit: Ersetzen von Acronymen und Abkürzungen

**dani_o** · 21.08.2006, 08:24

BOAH!!!
brech ma deinen Text um, dann les ich das auch ...

**ghostgambler** · 21.08.2006, 09:28

statt str_replace ein preg_replace mit /b vorne und hinten vor dem Akronym

**mruckcws** · 21.08.2006, 09:46

Also würde die Anweisung dann so heißen:

PHP-Code:


preg_replace("/b".$abr[$a]["abkuerzung"]."/b", ...

Hmmmm, schön, aber was macht das "/b"? Bzw. welchem Kriterium entspricht das?

Ist hiermit auch die Groß-/Kleinschreibung und auch das mit XHTML / HTML abgedeckt?

Vielen Dank für die Aufklärung, aber den "/b"-Schalter in RegExp kenn ich nicht :-(

Kann ich damit auch irgendwie gezielt die Tags für die Acronyme aus einem Text wieder raus nehmen, in dem evt. auch andere HTML-Tags drin sind (anstatt von strip_tags)?

Vielen Dank für die Hilfe!!

Viele Grüße
Michael

EDIT:
Scheint eh net zu funzen. Hab es eben mal in das Skript eingebunden und bei mir kommt dann nur "Warning: preg_replace() [function.preg-replace]: Unknown modifier 'b'" :-(

**wahsaga** · 21.08.2006, 10:13

Ein wenig mehr solltest du dich mit regulären Ausdrücken schon beschäftigen, wenn du sie einsetzen willst - damit du mit gegebenen Tipps auch was anfangen kannst.

Also siehe Manual und Tutorials (eins gibt's auch hier in der Tutorial-Sektion).

**Slava** · 21.08.2006, 10:14

aus Performance-Siecht finde ich die Methode "->fetchAll()" in deinem Beispiel unbrauchbar.
Ich sehe kein Sinn die Daten in ein Array zu packen, um diesen Array mit der Schleife zu durchlaufen und den zu verwerfen.
Es ist besser wenn du einfach in einer schleife "->fetch()" aufrufst und direkt deine weitere Entscheidungen triffst

**mruckcws** · 21.08.2006, 12:18

@wahsaga:

Ich kenn mich schon mit RegExp aus, nur kannte ich den b-Schalter halt noch nicht (ich hoffe Wissenslücken sind dennoch erlaubt und mir hat halt der richtige Gedanke gefehlt). Danke auf jeden Fall für Deine Hilfe.

Hab es mittlerweile auch hinbekommen und war nur wieder schneller beim antworten und tippen. Die richtige Code-Teil lautet nun:

PHP-Code:


preg_replace("/\\b".$abr[$a]["abkuerzung"]."\\b/",...

Und das funzt auch. Dennoch würde mich interessieren, was der Schalter genau macht. Auch hier Danke für Deine Mühe und Deine Erklärung!!

Hast Du evt. auch ne RegExp mit der ich den erzeugten HTML-Code auch wieder raus bekomme? Also anstatt des strip_tags?

Oder kennt jemand ne Möglichkeit strip_tags beizubringen, dass er nur die Dinger löscht, die auch in der Datenbank verzeichnet sind? Wobei es dann bei dem span-Tag wieder zu Problemen kommen könnte (Müßte dann ne Abfrage rein wie: Lösche span nur, wenn auch nur das Attribut "lang" enthalten ist). Über Hinweise in diese Richtung wäre ich noch super dankbar. Würde das dann sogar in ner neuen Funktion "delAbbrev" realisieren.

Vielen Dank hierfür!!

@Slava:
Danke für den Hinweis, aber zunächst mach ich mir mal keine Performance-Gedanken. Die Funktion wird derzeit eh nur beim Speichern in die Datenbank des zu analysierenden Textes verwendet und das kommt recht selten vor. So soll das auch bleiben und deswegen kann ich mit der Performance sehr gut leben.

Dennoch vielen Dank für den Hinweis, werde ihn im Hinterkopf behalten.

Über weitere Hinweise und Tipps bin ich Euch sehr dankbar.

Viele Grüße
Michael

**wahsaga** · 21.08.2006, 12:26

Original geschrieben von mruckcws
Dennoch würde mich interessieren, was der Schalter genau macht.

Read the friendly Manual, da steht's drin.

**jhaase** · 21.08.2006, 13:56

Sicht= вид, зрение
Siech=устар. больной, бедный н.пр. больной от лепры, нетрудоспособный. Или мат современн.: нечестный человек.

**mruckcws** · 22.08.2006, 08:09

So, hab es jetzt prima hinbekommen und kann nun auch die Acronym- und Abbr-Tags wieder gezielt aus einem Text löschen. Auf der PHP-Seite bei strip_tags steht ein entsprechendes Skript, das genau das macht und funzt echt prima.

Nun bin ich aber doch noch auf ein Problem bei der Funktion getAbbrev und der Ersetzung des Textes gestossen:

Ich habe im Text bspw. "CD" und "CD-ROM" stehen. Die Funktion ersetzt aber stets "CD" durch das entsprechende Acronym, nie aber "CD-ROM" komplett, obwohl ich es als Abkürzung in die Datenbank aufgenommen habe. Erkennt der b-Schalter der RegExp nur ganze Wörter und keine Wörter mit Bindestrich?

Ich könnte natürlich her gehen und auch noch einen Eintrag für "ROM" in der Datenbank hinterlegen und das geht bestimmt auch gut, aber es entspricht meiner Meinung nach nicht der Abkürzung.

Wäre schön, hierfür auch noch einen entsprechenden Tipp zu bekommen. Wenn alle Code-Teile fertig sind, dann stell ich die gerne auch hier nochmal komplett zur Verfügung (gerne auch inkl. Datenbank-Dump).

Vielen Dank für Eure Hilfe und viele Grüße
Michael

**wahsaga** · 22.08.2006, 08:31

- ist eine Wortgrenze, ja.

Aber wenn du "CD-ROM" komplett auszutauschen versuchst, sollte das keine Probleme machen - du musst nur auf die richtige Reihenfolge der Ersetzungen achten.

Barrierefreiheit: Ersetzen von Acronymen und Abkürzungen