Matchquality-Matrix-DB

**tontechniker** · 28.04.2008, 18:56

Erstmal würde ich überlegen ob es wirklich nötig ist alle Kombinationen zu speichern oder ob es reicht bereits errechnete zu cachen - das kommt ganz auf die Anwendung an (ein Beispiel: man errechnet wie gut bestimmte Personen (anhand eines Profiles) zusammen passen - in einer normalen Community besuchen aber nie alle Personen alle anderen). Die andere Frage wäre ob es sinnvoll ist derartige Vergleiche und Abfragen zu machen, wenn ihr tatsächlich 1 Mio. Äpfel gleichzeitig miteinander vergleichen wollt und das Ergebnis auch noch in der Gesamtheit abfragen wollt wäre es vielleicht sinnvoller einen Algorithmus zu entwickeln der für jeden Apfel einen Wert errechnet der sich dann mit den Basisfunktionen von MySQL vergleichen lässt.

**JayQ** · 28.04.2008, 19:05

Hallo Tontechniker

Danke für dein Feedback.

Da es alle möglichen Arten von Abfragekombinationen geben wird und teilweise wirklich alle mit allen verglichen werden und dann die besten gefunden werden müssen sollte jeder mit jedem einmal verglichen worden und das Ergebnis dann irgendwo abrufbar sein...

Soweit ich das bis jetzt vom Kunden mitgekriegt habe, wird es nicht möglich sein einen solchen Algorithmus zu generieren...

**onemorenerd** · 28.04.2008, 19:38

Original geschrieben von JayQ
Soweit ich das bis jetzt vom Kunden mitgekriegt habe, wird es nicht möglich sein einen solchen Algorithmus zu generieren...

Die Relevanzwerte oder was auch immer sind also nicht berechenbar?
Wie gedenkt denn der Kunde die DB zu füllen? Hat er ein Heer Chinesen an der Hand?

Es muss ja nicht unbedingt der Algorithmus sein, der alle Merkmale zu einer einzigen Zahl verwurstet. Vielmehr sollte klar gestellt werden, ob die gesuchte Lösung nur ein DB-Schema und Zugriffsmethoden umfassen soll oder auch die Berechnung irgendwelcher Werte.

**tontechniker** · 28.04.2008, 20:28

OffTopic:

Wie gedenkt denn der Kunde die DB zu füllen? Hat er ein Heer Chinesen an der Hand?

Ein Schachfeld und ein paar LKWs Reis

**JayQ** · 29.04.2008, 08:37

Original geschrieben von onemorenerd
Wie gedenkt denn der Kunde die DB zu füllen? Hat er ein Heer Chinesen an der Hand?

hehe ja, so wird es dann ungefähr sein.

Der Kunde hat dieses Programm, welches einfach die Ähnlichkeit zweier Objekte (kann theoretisch auch ein Apfel und eine Birne sein) herausfindet.

Letztendlich wird es tatsächlich eine grosse Anzahl von Leuten sein, welche die Datenbank mit allen möglichen Objekten füllen und dann Objekte miteinander vergleichen wollen.

Und dann soll es halt eben auch diese Abfragen geben wie, welche beiden Bananen (jedes Objekt ist mittels eindeutiger ID identifizierbar) sind am ähnlichsten. Oder welche beiden Objekte sind sich grundsätzlich am ähnlichsten. Oder welche Banane gleich am ehesten welcher Birne, etc. ...

Also wir sind hier auch ein paar Leute, die schon länger an dieser Geschichte herumstudieren, und sind bisher noch auf keine bessere Idee gekommen, also irgendwie/irgendwo solch eine Matrix aufzubauen, wo dann das Resultat aus dem Vergleich von jedem Objekt mit jedem irgendwie abgerufen werden kann...

**onemorenerd** · 29.04.2008, 10:58

Wenn die Ähnlichkeit zweier Objekte nicht algorithmisch bestimmbar ist, wird es wohl keine andere Lösung geben. Für N Objekte braucht ihr eine NxN-Matrix. Denn die von Menschenhand bestimmten Ähnlichkeitswerte müssen ja irgendwo gespeichert werden.

Bleibt also nur noch die Suche nach einem geschickten DB-Schema für diese Matrix. Der intuitive Ansatz wäre eine Tabelle mit N Spalten (für jedes Objekt eine Spalte) oder N Tabellen mit je 2 Spalten (für jedes Objekt eine Tabelle) oder irgendwas dazwischen (Partitionierung).

Allgemein wären das N-k Tabellen mit k Spalten, wenn man gleichgroße Partitionen bildet.
Bei N > 10^6 kann das für ein DBMS problematisch sein, für alle k.

Da sich die Limits des DBMS kaum umgehen lassen, müsst ihr von der NxN-Matrix wegkommen. Das geht wohl nur, wenn man irgendwelche Merkmale der Objekte nutzt um Klassen zu bilden. Geht das?

**tontechniker** · 29.04.2008, 19:59

Der Kunde hat dieses Programm, welches einfach die Ähnlichkeit zweier Objekte (kann theoretisch auch ein Apfel und eine Birne sein) herausfindet.

Ich bezweifle ja noch, dass sich das nicht in die Tabelle integrieren lässt.

Bleibt also nur noch die Suche nach einem geschickten DB-Schema für diese Matrix.

Glaube nicht, dass ist sinnvoll ist sowas in einer MySQL Datenbank abzulegen.

**onemorenerd** · 29.04.2008, 22:49

Original geschrieben von tontechniker
Ich bezweifle ja noch, dass sich das nicht in die Tabelle integrieren lässt.

Bezweifle ich auch, aber letztlich weiß das nur der Threadstarter (besser).

Glaube nicht, dass ist sinnvoll ist sowas in einer MySQL Datenbank abzulegen.

Naja vielleicht nicht MySQL, aber irgendein DBS sollte es schon sein. Schließlich gilt es viele kleine Datenschnipsel zu speichern und nahezu beliebige Anfragen stellen zu können. Genau dafür wurden DBS erfunden.

Aus meiner Sicht ist dieses Thema inzwischen an einem Totpunkt angelangt, der sich nur überwinden läßt, wenn der Threadstarter mal preisgibt, wie die Relevanz bestimmt wird. (Ich setze 'nen 10er, dass es doch algorithmisch machbar ist.)

Matchquality-Matrix-DB