php-resource



Zurück   PHP-Scripte PHP-Tutorials PHP-Jobs und vieles mehr > Entwicklung > PHP Developer Forum
 

Login

 
eingeloggt bleiben
star Jetzt registrieren   star Passwort vergessen
 

 

 


PHP Developer Forum Hier habt ihr die Möglichkeit, eure Skriptprobleme mit anderen Anwendern zu diskutieren. Seid so fair und beantwortet auch Fragen von anderen Anwendern. Dieses Forum ist sowohl für ANFÄNGER als auch für PHP-Profis! Fragen zu Laravel, YII oder anderen PHP-Frameworks.

Antwort
 
LinkBack Themen-Optionen Thema bewerten
  #1 (permalink)  
Alt 30-06-2011, 20:02
rlebek
 Registrierter Benutzer
Links : Onlinestatus : rlebek ist offline
Registriert seit: Mar 2002
Beiträge: 278
rlebek ist zur Zeit noch ein unbeschriebenes Blatt
Standard Vergleich von zwei Strings

Liebes Forum,

ich habe folgendes Problem:

Ich habe zwei Datenbanken in denen Daten von Autohäusern sind. Alle Autohäuser sind in jeder Datenbank, allerdings sind in jeder DB andere Daten zum Autohaus gespeichert.

Nun möchte ich die Daten zusammenfügen bzw. mit einer Abfrage die Daten aus beiden Datenbanken haben, aber ich habe keine id o.ä. um die jeweils gleichen Autohäuser zu holen. Das Problem ist das die Namen unterschiedlich sind --> Beispiel: Gebrauchtwagen Heller ---> Heller Gebrauchtwagen

Ich habe schon probiert die Strings mit Levenshtein oder anderen Funktionen zu vergleichen, aber durch die unterschiedliche Namenszusammenstellung funktioniert das nicht. Ich kann auch nicht das Gebrauchtwagen weglassen, da auch Autohaus und viele andere Variatonen vorkommen.

Hat jemand eine Idee von Euch?

Danke für die Hilfe
McD
Mit Zitat antworten
  #2 (permalink)  
Alt 30-06-2011, 20:45
wahsaga
  Moderator
Links : Onlinestatus : wahsaga ist offline
Registriert seit: Sep 2001
Beiträge: 25.236
wahsaga befindet sich auf einem aufstrebenden Ast
Standard

Liegen Adressdaten dazu vor, die sich mit weniger Aufwand in eine „vergleichbare“ Form bringen lassen, als die Namens-Variationen ...?
Oder ggf. auch Telefonnummern, die sich wesentlich einfacher „normalisieren“ lassen dürften.

Ansonsten ist im Zweifelsfalle vielleicht eher Handarbeit angesagt, bevor man übermäßig viel Aufwand in eine algorithmische Lösung eines solchen Problems steckt. Kann man auch an eine Hilfskraft auslagern und auf mehrere Personen aufteilen, falls entsprechend großer Umfang.
__________________
I don't believe in rebirth. Actually, I never did in my whole lives.
Mit Zitat antworten
  #3 (permalink)  
Alt 30-06-2011, 22:13
AmicaNoctis
  Moderatorin
Links : Onlinestatus : AmicaNoctis ist offline
Registriert seit: Jul 2009
Beiträge: 5.709
Blog-Einträge: 9
AmicaNoctis sorgt für eine eindrucksvolle AtmosphäreAmicaNoctis sorgt für eine eindrucksvolle Atmosphäre
Standard

Hallo,

ich weiß nicht, ob es in deinem Falle was bringt, aber ich würde versuchen, die Zeichenketten erstmal nach Worten zu trennen (preg_split("<\\W+>", ...)), dieses Array alphabetisch sortieren und dann mit dem leeren String implodieren. Das ergibt z. B.

„Ford Autohaus A. Anger“ => „AAngerAutohausFord“
„Anger Autohaus - Ford Partner“ => „AngerAutohausFordPartner“

wenn du dann mit Levenshtein rangehst und das Ergebnis auf die Durchschnittslänge relativierst, sollte das schonmal Prozentwerte liefern, anhand derer man die (Un)gleichheit entscheiden kann.

Gruß,

Amica
__________________
Hast du die Grundlagen zur Fehlersuche gelesen? Hast du Code-Tags benutzt?
Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
Super, danke!
Mit Zitat antworten
  #4 (permalink)  
Alt 02-07-2011, 16:04
Benutzerbild von fireweasel fireweasel
 Registrierter Benutzer
Links : Onlinestatus : fireweasel ist offline
Registriert seit: Sep 2008
Ort: At home
Beiträge: 851
fireweasel wird schon bald berühmt werdenfireweasel wird schon bald berühmt werden
fireweasel eine Nachricht über AIM schicken fireweasel eine Nachricht über Yahoo! schicken
Standard

Zitat:
Zitat von rlebek Beitrag anzeigen
... Das Problem ist das die Namen unterschiedlich sind --> Beispiel: Gebrauchtwagen Heller ---> Heller Gebrauchtwagen

...
Hat jemand eine Idee von Euch?
N-Gram-Vergleich:

SQL Datensätze nach Ähnlichkeit ordnen - php.de
(nach "function sqlite_udf_fuzzymatch" suchen)
Mit Zitat antworten
  #5 (permalink)  
Alt 03-07-2011, 13:42
rossixx
 Registrierter Benutzer
Links : Onlinestatus : rossixx ist offline
Registriert seit: Jul 2003
Ort: Berlin
Beiträge: 514
Blog-Einträge: 2
rossixx wird schon bald berühmt werden
Standard

Kommt auf die Menge der Daten an. Wenn überschaubar per Hand.

Eine andere Problematik: geht es hier nur um eine Tabelle, oder um komplexe Tabellen Strukturen / Abhängigkeiten ?!?

Im Zweifel würde ich eine Test leere DB erstellen und beide DBs rein haun, und dann erstmal zu schaun, wieviele doppelt aber mit unterschiedlichen namen vorhanden sind.
Mit Zitat antworten
Antwort

Lesezeichen


Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)
 

Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
Text zwischen zwei Strings auslesen simms PHP Developer Forum 6 21-05-2010 19:37
Zeichenkette zwischen zwei Strings ersetzen (preg_replace) garksucha PHP Developer Forum 2 20-04-2008 19:59
Vergleich zweier mySQL Spalten in zwei Tabellen. ( ID ) iBumsti PHP Developer Forum 3 02-04-2008 16:57
Vergleich über zwei datenbanken cheeby SQL / Datenbanken 6 20-01-2003 14:15

Themen-Optionen
Thema bewerten
Thema bewerten:

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are an


PHP News

ebiz-trader 7.5.0 mit PHP7 Unterstützung veröffentlicht
ebiz-trader 7.5.0 mit PHP7 Unterstützung veröffentlichtDie bekannte Marktplatzsoftware ebiz-trader ist in der Version 7.5.0 veröffentlicht worden.

28.05.2018 | Berni

Wissensbestand in Unternehmen
Wissensbestand in UnternehmenLebenslanges Lernen und Weiterbilden sichert Wissensbestand in Unternehmen

25.05.2018 | Berni


 

Aktuelle PHP Scripte

PHP Server Monitor

PHP Server Monitor ist ein Skript, das prüft, ob Ihre Websites und Server betriebsbereit sind.

11.09.2018 Berni | Kategorie: PHP/ Security
PHP WEB STATISTIK ansehen PHP WEB STATISTIK

Die PHP Web Statistik bietet Ihnen ein einfach zu konfigurierendes Script zur Aufzeichnung und grafischen und textuellen Auswertung der Besuchern Ihrer Webseite. Folgende zeitlichen Module sind verfügbar: Jahr, Monat, Tag, Wochentag, Stunde Folgende son

28.08.2018 phpwebstat | Kategorie: PHP/ Counter
Affilinator - Affilinet XML Produktlisten Skript

Die Affilinator Affilinet XML Edition ist ein vollautomatisches Skript zum einlesen und darstellen der Affili.net (Partnerprogramm Netzwerk) Produktlisten und Produktdaten. Im Grunde gibt der Webmaster seine Affilinet PartnerID ein und hat dann unmittelb

27.08.2018 freefrank@ | Kategorie: PHP/ Partnerprogramme
 Alle PHP Scripte anzeigen

Alle Zeitangaben in WEZ +2. Es ist jetzt 14:53 Uhr.