Pseudo-Pattern zu PCRE-Pattern und best match

**AmicaNoctis** · 15.10.2009, 20:21

Sieht imho doch ganz gut aus. Was ich noch machen würde, wäre, vor der Ersetzung der Platzhalter in RegEx noch preg_quote drauf anzuwenden, falls URL-Pfade mal nen Punkt, Klammern oder ein Dollarzeichen enthalten könnten. Die werden nämlich nicht urlencoded. Darüber hinaus enthält $_SERVER["REQUEST_URI"] auch den Query String, der ebenfalls mit einem RegEx-Zeichen anfängt, aber ich weiß nicht, inwiefern GET-Parameter bei deinen URLs überhaupt eine Rolle spielen.

**onemorenerd** · 15.10.2009, 21:29

Den Codefetzen habe ich nur mal so aus dem Ärmel geschüttelt, damit klar wird wie ich es meine. Tatsächlich verwende ich preg_quote(). Nur nicht an dieser Stelle sondern früher, in dem Moment wo der Pfad eingegeben wird.

Das wirklich blöde an diesem Problem ist, dass man das Pferd so von hinten aufzäumen muss. Ich will zum Schluß den längsten Treffer. Die Frage ist, welches Pattern ich dafür nehmen muss.

Annahme: Lange Pattern versprechen lange Matches.
Betrachtet man nur die "einfachen" Zeichen in den Pattern, dann stimmt das auch. Aber die "magischen" Zeichen machen Probleme.

Angenommen ich habe die Pfade user/*/foo/bar und user/*/foo/*. Der erste garantiert mir einen längeren Treffer, schon allein weil er mehr "einfache" Zeichen enthält.
Jetzt matche ich das mal mit der URL user/me/foo/bar/baz. Mit dem ersten Pattern ist der Match 15 Zeichen lang. Aber das zweite, kürzere Pattern erzeugt einen längeren Match. Mööp, Annahme widerlegt.

In diesem Beispiel wars einfach, denn ein * am Ende eines Pattern expandiert halt bis zum Ende der URL. Aber das Pattern hätte auch user/*/foo/*z lauten können. Wäre immer noch kürzer als user/*/foo/bar, ich würde immernoch letzterem den Vorzug geben, es würde auch matchen und ich läge wieder daneben.

Ich brauche einen Algorithmus, eine Funktion, die für zwei Pattern ermittelt, welches längere Matches verspricht.
Oder einen anderen Ansatz ...

Übrigens habe ich mich von ? schon verabschiedet und * wird nun durch [^/]{1,} ersetzt. Damit kann man noch alle URLs abdecken, die in dieser Applikation auftreten und es vereinfacht die Implementierung.

**AmicaNoctis** · 15.10.2009, 21:35

Es lässt sich einfach nicht ermitteln, welches Pattern den längsten Match verspricht. Du kannst nur die Patterns alle anwenden und alle Matches erfassen und die dann nach Länge ordnen. Oder sehe ich da was falsch?

**onemorenerd** · 15.10.2009, 21:46

Naja ich kann zumindest die Anzahl der statischen Zeichen zu Rate ziehen

user/*/foo/bar => 13
user/*/foo/*z => 11

und die Pattern danach sortiert durchprobieren. Sobald ich einen Match habe, kann ich dessen Länge ermitteln und alle Pattern, die weniger statische Zeichen haben als dieser Match, brauche ich gar nicht mehr zu testen.
Damit würde sich sozusagen die Liste der noch testenden Pattern immer weiter verkürzen, je längere Matches sich finden.

**wahsaga** · 15.10.2009, 21:50

Zitat von onemorenerd Beitrag anzeigen

Angenommen ich habe die Pfade user/*/foo/bar und user/*/foo/*. Der erste garantiert mir einen längeren Treffer, schon allein weil er mehr "einfache" Zeichen enthält.

Du bräuchtest für so einen Fall eine Art KI, die erkennt, dass das erste Muster einen Sonderfall des zweiten darstellt.

Dann könntest du alle "besten" Treffer des zweiten Musters ermitteln (ich nehme an, dass möglicherweise mehr als eine Adresse dieses Kriterium erfüllen kann), und dann unter denen schauen, ob einer davon das spezielle, erste Pattern erfüllt.

Aber das Pattern hätte auch user/*/foo/*z lauten können. Wäre immer noch kürzer als user/*/foo/bar, ich würde immernoch letzterem den Vorzug geben, es würde auch matchen und ich läge wieder daneben.

Aus der Länge eines Patterns auch nur irgendeinen Rückschluss darauf ziehen zu wollen, wie speziell oder allgemein es nun matched, halte ich für ein Ding der Unmöglichkeit.

Ich brauche einen Algorithmus, eine Funktion, die für zwei Pattern ermittelt, welches längere Matches verspricht.

S.o., halte ich für kaum machbar.
In dem Moment, wo du Informationen darüber gewinnen willst, bist du mindestens schon beim Parsen des regulären Ausdrucks, vielleicht schon dabei ihn auf einen bestimmten Text anzuwenden ...

**AmicaNoctis** · 15.10.2009, 21:52

Zitat von onemorenerd Beitrag anzeigen

die Liste der noch testenden Pattern immer weiter verkürzen, je längere Matches sich finden.

Das klingt sinnvoll.

**mermshaus** · 15.10.2009, 23:17

Wenn ich das richtig verstanden habe, sieht die Umformung zum Beispiel so aus:

Code:

(pseudo)   user/* <=> user/[^/]{1,}   (PCRE)

Angenommen, ich verhaue mich da jetzt nicht völlig, dürfte der PCRE-Ausdruck keine Unterverzeichnisse matchen. Aber passt das zu dem folgenden Zitat?

Angenommen ich habe die Pfade user/*/foo/bar und user/*/foo/*. Der erste garantiert mir einen längeren Treffer, schon allein weil er mehr "einfache" Zeichen enthält.
Jetzt matche ich das mal mit der URL user/me/foo/bar/baz. Mit dem ersten Pattern ist der Match 15 Zeichen lang. Aber das zweite, kürzere Pattern erzeugt einen längeren Match. Mööp, Annahme widerlegt.

In diesem Beispiel wars einfach, denn ein * am Ende eines Pattern expandiert halt bis zum Ende der URL.

Matcht das Sternchen nun Verzeichnisse?

Und wie passen #5 und #3 zusammen? Im Beispiel in #3 liefert doch das Pattern mit weniger statischen Zeichen das längere Match.

**AmicaNoctis** · 15.10.2009, 23:25

Zitat von mermshaus Beitrag anzeigen

Im Beispiel in #3 liefert doch das Pattern mit weniger statischen Zeichen das längere Match.

Du hast vollkommen Recht. Ich nehme mein "Das klingt sinnvoll." beschämt zurück

**onemorenerd** · 16.10.2009, 00:44

Nein, bleib mal dabei. Es ist sinnvoll.

@mermshaus: Ich entschuldige mich, bei diesem Beispiel habe ich mich geirrt. Um es klarzustellen: Ein * im Pseudo wird zu [^/]{1,} im PCRE. * matcht also nur bis zum nächsten Slash. Ich überlege sogar, ob * nich generell von einem bis zum nächsten Slash matchen sollte. Aber bisher hätte ich davon keine Vorteile.

Diese Tatsache ist es übrigens auch, die mich auf eine weitere Idee brachte. Dazu komme ich gleich. Vorher noch ein Wort zu

Zitat von wahsaga Beitrag anzeigen

Aus der Länge eines Patterns auch nur irgendeinen Rückschluss darauf ziehen zu wollen, wie speziell oder allgemein es nun matched, halte ich für ein Ding der Unmöglichkeit.

Mir geht es ja nur um ganz spezielle Pattern. So speziell, dass ich glaube, man könnte aus allen Pattern einen Baum konstruieren und mit einer geeigneten Metrik die Güte von Pattern miteinander vergleichen. Aber das ist mir zu kompliziert, vor allem weil sich bestimmte Mehrdeutigkeiten prinzipiell nicht auflösen lassen, soweit ich das sehe.

Nun zu meiner neuen Idee: Sie stützt sich auf die Tatsache, dass * für alles außer / steht. Ich gruppiere alle Pfade nach der Anzahl enthaltener Komponenten, konkret nach substr_count($path, '/').
Vorm Matching bestimme ich die Anzahl der Komponenten in der URL. Und ich brauche schon mal die Pattern(gruppen) alle nicht mehr, die mehr Komponenten haben als die URL. Denn wenn ein Pattern mehr Slashes enthält als das Subject, kann es gar nicht matchen.

Und es kommt noch besser: Sobald ein Pattern aus einer Gruppe matcht, muss ich nur noch diese Gruppe durchprobieren. Alle Pattern aus den anderen Gruppen matchen entweder gar nicht oder kürzer.

Soweit so gut. Jetzt suche ich noch nach einer Möglichkeit, um nicht alle Pattern in einer Gruppe probieren zu müssen. Meine einzige Idee dazu ist ein Präfixbaum.

**AmicaNoctis** · 16.10.2009, 00:51

Zitat von onemorenerd Beitrag anzeigen

Sobald ein Pattern aus einer Gruppe matcht, muss ich nur noch diese Gruppe durchprobieren. Alle Pattern aus den anderen Gruppen matchen entweder gar nicht oder kürzer.

Dazu müsstest du erstmal klären, was in deinem Falle so eine Gruppe ist und wodurch sie sich auszeichnet.

Das mit dem Präfixbaum (wenn ich es nicht falsch verstehe) ist doch wieder so eine Sache, die sich nicht entscheiden lässt, ohne die konkreten Subjektstrings zu kennen. Es kann ganz zum Schluss immer noch ein */foo/*/bar kommen.

Da es ja um den passendsten Pfad geht und du sinnvollerweise die Anzahl der Komponenten (N) als erstes berücksichtigst, wäre das ein Grund sich ansonsten vom Kriterium der statischen Länge des Patterns zu verabschieden. Damit ist dann vollkommen egal, wieviele konkrete Zeichen ein * matcht, weil es ja trotzdem nur eine von N Pfadkomponenten ist. Dabei gehe ich davon aus, dass Pfadkomponenten atomar sind und nicht unterschiedlich spezifische Einteilungen derselben Basisentität darstellen, z. B.
/ball/
/ball-rot/
/ball-gepunktet/
/ball-rot-gepunktet/
In diesem Fall würde das nicht mehr hinhauen, aber ich gehe mal davon aus, dass du deine Pfadnamen besser gewählt hast.

Wenn du mir bis hier hin zustimmen kannst, bringe ich jetzt noch die Spezifität ins Spiel, wie wir sie aus CSS kennen: Eine *-Komponente ist dabei weniger spezifisch als eine konkret benannte. Nachdem du also alle Patterns aussortiert hast, die eine abweichende Anzahl Komponenten haben, könntest du die übrigen nach substr_count($pattern, "*") sortieren und das erste nach dieser Sortierung matchende Pattern wäre dann der beste Treffer hinsichtlich der Spezifität. Das könnte man dann noch nach Position im Pfad gewichten, so dass z. B. "/*/*/foo/" eine höhere hat als "/bar/*/*/", weil Pfade nach hinten hin ja eh meistens spezieller werden. Damit kannst du wie in CSS ganz allgemein anfangen und dich dann sukzessive zu Sonderfällen vorarbeiten.

**onemorenerd** · 16.10.2009, 02:54

Eine Gruppe ist eine Menge von Pseudo-Pattern mit gleicher Anzahl Slashes. Das sieht zum Beispiel so aus:

Code:

0 = array('foo', 'x', '*')
1 = array('foo/*', 'foo/bar', 'x/y', 'x/z')
2 = array('foo/*/baz', 'foo/bar/baz', 'x/y/z', 'x/y/*')
4 = array('foo/*/baz/*/foo', 'foo/bar/baz/*/foo', 'x/y/z', 'x/y/*')

Der Präfixbaum für die Gruppe 2 sähe so aus:

Code:

<root>
+- foo
|  +- bar - baz
|  `- * - baz
`- x - y
       +- z
       `- *

Wenn ich das Subject x/y/z bekomme, zerlege ich das in die Komponenten x, y und z. Dann wird ausgehend von <root> das Kind x gesucht, von dort aus y und schließlich z.

Würde ich das so umsetzen, bräuchte ich überhaupt keine PCRE mehr. Aber auch wenn ich nur das erste Zeichen jedes Pseudo-Pattern zur Subgruppenbildung benutze, reduziert sich die Zahl der in Frage kommenden Pattern erheblich und es wären maximal zwei Array-Lookups mehr - einer für das erste Zeichen aus dem Subject und falls es keine solche Subgruppe gibt, ein weiterer nach *.

Die Subgruppen sähen so aus:

Code:

0 = array(
    'f' => array('foo'),
    'x' => array('x'),
    '*' => array('*'))
1 = array(
    'f' => array('foo/*', 'foo/bar'), 
    'x' => array('x/y', 'x/z'))
...

Für ein Subject aus zwei Komponenten könnte ich die Gruppen 2 und 4 (s.o.) schon komplett ausschließen. Ich beginne also mit Gruppe 1.
Das erste Zeichen des Subject sei ein b. Da es keine Subgruppe b in Gruppe 1 gibt und auch keine Subgruppe *, kann ich Gruppe 1 auschließen und mache weiter mit Gruppe 0.
In Gruppe 0 gibt es ebenfalls keine Subgruppe b, aber eine Subgruppe *.
Ich probiere alle Pattern aus dieser Subgruppe um herauszufinden, welches den längsten Match erzeugt. Weil die Subgruppe nun gerade aus nur einem Pattern besteht, kann ich mir das sogar sparen.

Zumindest für die häufigsten Subjects, nämlich die kurzen, kann ich so mit nur einem substr_count() und ein paar isset() die Anzahl der in Frage kommenden Pattern von einigen hundert auf weniger als ein Dutzend reduzieren.

**onemorenerd** · 16.10.2009, 03:27

Zitat von AmicaNoctis Beitrag anzeigen

In diesem Fall würde das nicht mehr hinhauen, aber ich gehe mal davon aus, dass du deine Pfadnamen besser gewählt hast.

Ich wähle die Pfadnamen nicht. Das macht ein Redakteur bzw. sie werden aus Überschriften, Benutzernamen usw. generiert.

Pseudo-Pattern zu PCRE-Pattern und best match