Anhand Tags den ähnlichsten Eintrag finden (eine Art Scoring)

**wahsaga** · 15.07.2009, 13:26

Zitat von st@tic Beitrag anzeigen

1. Frage: Um die Trefferwahrscheinlichkeit zu erhöhen würde ich gerne gewisse Zeichen wie Punkt, Komma, Bindestrich ignorieren. Gibt es eine möglichkeit z.b. den Datenbankeintrag A.B.C finden zu lassen wenn das Suchwort abc ist?

Sicher kann man da mit irgendwelchen Zeichenkettenfunktionen on-the-fly rangehen - das zieht aber die Performance nach unten.
Effektiver wäre es, gleich beim Abspeichern eine "normalisierte" Form des Tags in einer extra Spalte abzulegen, und dann darin zu suchen.

Gleiches für die Ähnlichkeitssuche, ob mit Levenshtein, SoundEx oder sonstwas realisiert - auch da würde ich das Ergebnis der jeweiligen Funktion vorberechnen und in einer extra Spalte ablegen.

Das erspart zum einen das Ermitteln des Funktionsergebnisses bei jedem Aufruf, und macht, noch etwas wichtiger, auch die Nutzung eines Index möglich.

Man könnte u.U. auch noch überlegen, den JOIN (bei deinem Statement übrigens ein impliziter, Pfui!) sein zu lassen - erst mal aus der Tag-Tabelle die IDs aller passenden Tags holen, und dann in einer zweiten Query diese IDs im IN-Operator eines SELECTs auf die Eintrags-Tabelle nutzen. Ob das "nötig" ist, oder kaum noch eine Verbesserung bringt, müsste man dann aber am konkreten Beispiel testen.

**st@tic** · 15.07.2009, 13:38

Zitat von wahsaga Beitrag anzeigen

Effektiver wäre es, gleich beim Abspeichern eine "normalisierte" Form des Tags in einer extra Spalte abzulegen, und dann darin zu suchen.

die normalisierte form abspeichern ist ne gute idee und auch leicht und effektiv umzusetzen.

Zitat von wahsaga Beitrag anzeigen

Gleiches für die Ähnlichkeitssuche, ob mit Levenshtein, SoundEx oder sonstwas realisiert - auch da würde ich das Ergebnis der jeweiligen Funktion vorberechnen und in einer extra Spalte ablegen.

da kann ich jetzt nicht so ganz folgen.

Zitat von wahsaga Beitrag anzeigen

Man könnte u.U. auch noch überlegen, den JOIN (bei deinem Statement übrigens ein impliziter, Pfui!) sein zu lassen

ja das ist auch wahr. der join kam als spontanversuch zustande und da ich kein guter "sqler" bin hab ich mich gefreut

aber falls ich den join beibehalten wollte, müsste ich ihn auf INNER JOIN ummoddeln oder?

**wahsaga** · 15.07.2009, 13:56

Zitat von st@tic Beitrag anzeigen

da kann ich jetzt nicht so ganz folgen.

Ach so, das geht natürlich nur bei Soundex - Levenshtein nimmt ja zwei Srings als Parameter, und liefert einen Ähnlichkeitswert zurück.

Soundex hingegen nimmt einen String, und wandelt den um - und zwar in einer Art und Weise, dass "ähnliche" Strings gleiche Ergebnisse erzeugen.
Das kann man also, im Gegensatz zu Levenshtein, gut im voraus berechnen und in einer extra Spalte ablegen. Dann muss man nur noch den Suchbegriff ebenfalls mit Soundex behandeln, und kann das dann mit dem statischen Spalteninhalt vergleichen.

Eine genauere Beschreibung gibt's bei der Wikipedia, http://de.wikipedia.org/wiki/Soundex:

Soundex ist ein phonetischer Algorithmus zur Indizierung von Wörtern und Phrasen nach ihrem Klang in der englischen Sprache. Gleichklingende Wörter sollen dabei zu einer identischen Zeichenfolge kodiert werden.

Wohlgemerkt, "nach ihrem Klang in der englischen Sprache" - wenn die Begriffe also überwiegend deutsch sind, ist das mnachmal weniger geeignet. Da tut dann die Kölner Phonetik bessere Dienste, http://de.wikipedia.org/wiki/Kölner_Phonetik - entweder selbst implementieren, oder nach was fertigem Suchen. Das kann man dann auch ruhig PHP-seitig schon machen, da muss man keine aufwendige DB-Procedure für Erstellen - beim Eintragen neuer Tags Wert im Script mit berechnen und eintragen, und für den Suchbegriff genauso vor dem Einsetzen in die Query.

**st@tic** · 15.07.2009, 14:04

achso meintest du das.
mit soundex und kölner phonetik hab ich mich auch schon befasst.
wäre vielleicht ne überlegung wert.

für weitere anregungen bin ich weiterhin sehr dankbar

Anhand Tags den ähnlichsten Eintrag finden (eine Art Scoring)