- Ad -
php-resource



Zurück   PHP-Scripte PHP-Tutorials PHP-Jobs und vieles mehr > Entwicklung > PHP Developer Forum
 

Login

 
eingeloggt bleiben
star Jetzt registrieren   star Passwort vergessen
 

 

 

 


PHP Developer Forum Hier habt ihr die Möglichkeit, eure Skriptprobleme mit anderen Anwendern zu diskutieren. Seid so fair und beantwortet auch Fragen von anderen Anwendern. Dieses Forum ist sowohl für ANFÄNGER als auch für PHP-Profis! Post your PHP questions here!

Antwort
 
LinkBack Themen-Optionen Thema bewerten
  #1 (permalink)  
Alt 30-06-2011, 20:02
rlebek
 Registrierter Benutzer
Links : Onlinestatus : rlebek ist offline
Registriert seit: Mar 2002
Beiträge: 278
rlebek ist zur Zeit noch ein unbeschriebenes Blatt
Standard Vergleich von zwei Strings

Liebes Forum,

ich habe folgendes Problem:

Ich habe zwei Datenbanken in denen Daten von Autohäusern sind. Alle Autohäuser sind in jeder Datenbank, allerdings sind in jeder DB andere Daten zum Autohaus gespeichert.

Nun möchte ich die Daten zusammenfügen bzw. mit einer Abfrage die Daten aus beiden Datenbanken haben, aber ich habe keine id o.ä. um die jeweils gleichen Autohäuser zu holen. Das Problem ist das die Namen unterschiedlich sind --> Beispiel: Gebrauchtwagen Heller ---> Heller Gebrauchtwagen

Ich habe schon probiert die Strings mit Levenshtein oder anderen Funktionen zu vergleichen, aber durch die unterschiedliche Namenszusammenstellung funktioniert das nicht. Ich kann auch nicht das Gebrauchtwagen weglassen, da auch Autohaus und viele andere Variatonen vorkommen.

Hat jemand eine Idee von Euch?

Danke für die Hilfe
McD
Mit Zitat antworten
  #2 (permalink)  
Alt 30-06-2011, 20:45
wahsaga
  Moderator
Links : Onlinestatus : wahsaga ist offline
Registriert seit: Sep 2001
Beiträge: 24.486
wahsaga befindet sich auf einem aufstrebenden Ast
Standard

Liegen Adressdaten dazu vor, die sich mit weniger Aufwand in eine „vergleichbare“ Form bringen lassen, als die Namens-Variationen ...?
Oder ggf. auch Telefonnummern, die sich wesentlich einfacher „normalisieren“ lassen dürften.

Ansonsten ist im Zweifelsfalle vielleicht eher Handarbeit angesagt, bevor man übermäßig viel Aufwand in eine algorithmische Lösung eines solchen Problems steckt. Kann man auch an eine Hilfskraft auslagern und auf mehrere Personen aufteilen, falls entsprechend großer Umfang.
__________________
I don't believe in rebirth. Actually, I never did in my whole lives.
Mit Zitat antworten
  #3 (permalink)  
Alt 30-06-2011, 22:13
AmicaNoctis
  Moderatorin
Links : Onlinestatus : AmicaNoctis ist offline
Registriert seit: Jul 2009
Beiträge: 5.550
Blog-Einträge: 9
AmicaNoctis sorgt für eine eindrucksvolle AtmosphäreAmicaNoctis sorgt für eine eindrucksvolle Atmosphäre
Standard

Hallo,

ich weiß nicht, ob es in deinem Falle was bringt, aber ich würde versuchen, die Zeichenketten erstmal nach Worten zu trennen (preg_split("<\\W+>", ...)), dieses Array alphabetisch sortieren und dann mit dem leeren String implodieren. Das ergibt z. B.

„Ford Autohaus A. Anger“ => „AAngerAutohausFord“
„Anger Autohaus - Ford Partner“ => „AngerAutohausFordPartner“

wenn du dann mit Levenshtein rangehst und das Ergebnis auf die Durchschnittslänge relativierst, sollte das schonmal Prozentwerte liefern, anhand derer man die (Un)gleichheit entscheiden kann.

Gruß,

Amica
__________________
Hast du die Grundlagen zur Fehlersuche gelesen? Hast du Code-Tags benutzt?
Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
Super, danke!
Mit Zitat antworten
  #4 (permalink)  
Alt 02-07-2011, 16:04
Benutzerbild von fireweasel fireweasel
 Registrierter Benutzer
Links : Onlinestatus : fireweasel ist offline
Registriert seit: Sep 2008
Ort: At home
Beiträge: 680
fireweasel wird schon bald berühmt werden
fireweasel eine Nachricht über AIM schicken fireweasel eine Nachricht über Yahoo! schicken
Standard

Zitat:
Zitat von rlebek Beitrag anzeigen
... Das Problem ist das die Namen unterschiedlich sind --> Beispiel: Gebrauchtwagen Heller ---> Heller Gebrauchtwagen

...
Hat jemand eine Idee von Euch?
N-Gram-Vergleich:

SQL Datensätze nach Ähnlichkeit ordnen - php.de
(nach "function sqlite_udf_fuzzymatch" suchen)
__________________
PHP-Code:
class Brick implements Throwable {
    
// ... 

Mit Zitat antworten
  #5 (permalink)  
Alt 03-07-2011, 13:42
rossixx
 Registrierter Benutzer
Links : Onlinestatus : rossixx ist offline
Registriert seit: Jul 2003
Ort: Berlin
Beiträge: 461
Blog-Einträge: 2
rossixx befindet sich auf einem aufstrebenden Ast
Standard

Kommt auf die Menge der Daten an. Wenn überschaubar per Hand.

Eine andere Problematik: geht es hier nur um eine Tabelle, oder um komplexe Tabellen Strukturen / Abhängigkeiten ?!?

Im Zweifel würde ich eine Test leere DB erstellen und beide DBs rein haun, und dann erstmal zu schaun, wieviele doppelt aber mit unterschiedlichen namen vorhanden sind.
Mit Zitat antworten
Antwort

Lesezeichen


Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)
 

Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
Text zwischen zwei Strings auslesen simms PHP Developer Forum 6 21-05-2010 19:37
Zeichenkette zwischen zwei Strings ersetzen (preg_replace) garksucha PHP Developer Forum 2 20-04-2008 19:59
Vergleich zweier mySQL Spalten in zwei Tabellen. ( ID ) iBumsti PHP Developer Forum 3 02-04-2008 16:57
Vergleich über zwei datenbanken cheeby SQL / Datenbanken 6 20-01-2003 14:15

Themen-Optionen
Thema bewerten
Thema bewerten:

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are an


PHP News

MariaDB 5.5 veröffentlicht
MariaDB 5.5 veröffentlichtDie freie MySQL-Alternative MariaDB wurde in der stabilen Version 5.5.23 veröffentlicht und soll einige Verbesserungen gegenüber Oracles Communityversion von MySQL mitbringen.

16.04.2012 | Berni

Deutsche Yii Framework Community
Deutsche Yii Framework CommunitySeit dem 19.03.2012 gibt es für die Yii PHP Framework Community ein deutsches Zuhause.

20.03.2012 | dhcomputer

 

Aktuelle PHP Scripte

Advanced Login ansehen Advanced Login

Login-System und Kundenverwaltung, die sich spielend leicht in bestehende Webseiten einbauen lässt und einen enormen Funktionsumfang bietet. Ihre eigene Webseite muss mit Advanced Login nicht umständlich an ein fertiges System angepasst werden.

25.05.2012 Madden | Kategorie: PHP/ Kundenverwaltung
BROM CMS/BelCal 3 ansehen BROM CMS/BelCal 3

Spezielles CMS für Betreiber von Ferienwohnungen. Komplette Seitenerstellung online, Verwaltung mehrerer Objekte, Reservierungssystem mit sofortigem Abgleich im Belegungskalender und vieles mehr bietet dieses Content Management System.

25.05.2012 belcal2 | Kategorie: PHP/ CMS
belbit LiveSupport Script ansehen belbit LiveSupport Script

Schnellen und unkomplizierten Support im LiveSupport-Chat anbieten. Ohne Datenbank und in wenigen Sekunden installiert.

24.05.2012 EichbaumMedia | Kategorie: PHP/ Chat
 Alle PHP Scripte anzeigen

Alle Zeitangaben in WEZ +2. Es ist jetzt 08:31 Uhr.