Vergleich von zwei Strings

**wahsaga** · 30.06.2011, 19:45

Liegen Adressdaten dazu vor, die sich mit weniger Aufwand in eine „vergleichbare“ Form bringen lassen, als die Namens-Variationen ...?
Oder ggf. auch Telefonnummern, die sich wesentlich einfacher „normalisieren“ lassen dürften.

Ansonsten ist im Zweifelsfalle vielleicht eher Handarbeit angesagt, bevor man übermäßig viel Aufwand in eine algorithmische Lösung eines solchen Problems steckt. Kann man auch an eine Hilfskraft auslagern und auf mehrere Personen aufteilen, falls entsprechend großer Umfang.

**AmicaNoctis** · 30.06.2011, 21:13

Hallo,

ich weiß nicht, ob es in deinem Falle was bringt, aber ich würde versuchen, die Zeichenketten erstmal nach Worten zu trennen (preg_split("<\\W+>", ...)), dieses Array alphabetisch sortieren und dann mit dem leeren String implodieren. Das ergibt z. B.

„Ford Autohaus A. Anger“ => „AAngerAutohausFord“
„Anger Autohaus - Ford Partner“ => „AngerAutohausFordPartner“

wenn du dann mit Levenshtein rangehst und das Ergebnis auf die Durchschnittslänge relativierst, sollte das schonmal Prozentwerte liefern, anhand derer man die (Un)gleichheit entscheiden kann.

Gruß,

Amica

**fireweasel** · 02.07.2011, 15:04

Zitat von rlebek Beitrag anzeigen

... Das Problem ist das die Namen unterschiedlich sind --> Beispiel: Gebrauchtwagen Heller ---> Heller Gebrauchtwagen

...
Hat jemand eine Idee von Euch?

N-Gram-Vergleich:

SQL Datensätze nach Ähnlichkeit ordnen - php.de
(nach "function sqlite_udf_fuzzymatch" suchen)

**rossixx** · 03.07.2011, 12:42

Kommt auf die Menge der Daten an. Wenn überschaubar per Hand.

Eine andere Problematik: geht es hier nur um eine Tabelle, oder um komplexe Tabellen Strukturen / Abhängigkeiten ?!?

Im Zweifel würde ich eine Test leere DB erstellen und beide DBs rein haun, und dann erstmal zu schaun, wieviele doppelt aber mit unterschiedlichen namen vorhanden sind.

Vergleich von zwei Strings