Regex negieren?

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Regex negieren?

    Ich bastle gerade an einem Skript zum Zippen eines Verzeichnisses und nutze dazu die SPL-Klassen. Jetzt will ich aber nicht alle Dateien/Verzeichnisse aus einem Quellverzeichnis übernehmen, sondern Elemente die einem regulären Ausdruck entsprechend ignorieren. So frühstücke ich dann zum Beispiel die ".svn" oder "CVS"-Verzeichnisse ab.
    Der reguläre Ausdruck hat zum Beispiel die Form:
    Code:
    ~[/\\]\.svn|CVS[/\\]~i
    Nun ist es nicht einfach möglich, einen regulären Ausdruck zu negieren, also bleibt nichts anderes übrig, als das Ergebnis des match-Vorganges zu negieren.
    Das rekursive Verzeichnis parsen mache ich mit folgender Objektverschachtelung:
    PHP-Code:
    $iterator=
        new 
    RecursiveIteratorIterator(
            new 
    RecursiveDirectoryIterator(
                
    $basepath.$package
            
    ),
            
    RecursiveIteratorIterator::SELF_FIRST
        
    ); 
    Um den Regex da noch direkt vor zu bekommen, schalte ich vor den RII noch eine RegexIterator-Instanz. Allerdings ist jetzt das Problem, dass der Regex ja genau auf die Elemente zutrifft, die ich ausschließen möchte.
    Darum ist meine Lösung momentan, dass ich eine Unterklasse erstellt habe, die das Ergebnis der accept-Methode negiert zurückgibt.
    PHP-Code:
    class NegateRegexIterator extends RegexIterator {
        public function 
    accept() {
            return(!
    parent::accept());
        }

    Das funktioniert auch wunderbar. Und nun die eigentliche Frage: Geht die Negation des regulären Ausdrucks auch einfacher? Auf die SPL-Klassen will ich eigentlich nicht verzichten, sondern ich Ziele viel mehr darauf, ob nicht jemand eine Lösung kennt, bei der ich keine eigene Unterklassen erstellen muss. Irgendwelche Flags, die ich setzen kann? Oder eine andere Nutzung der Iteratoren? Wäre für jeden Ratschlag sehr dankbar.
    Zuletzt geändert von PHP-Desaster; 28.10.2008, 22:45.

  • #2
    Re: Regex negieren?

    Original geschrieben von PHP-Desaster
    ...
    Der reguläre Ausdruck hat zum Beispiel die Form:
    Code:
    ~[/\\]\.svn|CVS[/\\]~i
    Und der matcht worauf? Wahrscheinlich auf gar nichts -- bei mir gabs 'nen PCRE-Syntax-Fehler. Irgendwie hast du die runden Klammern fürs Subpattern vergessen, und deine Backslashes sind nicht richtig escaped.

    Nun ist es nicht einfach möglich, einen regulären Ausdruck zu negieren, also bleibt nichts anderes übrig, als das Ergebnis des match-Vorganges zu negieren.
    Ich verstehe nicht, wo bei dieser Vorgehensweise das Problem ist. Wenn du nur ein Ausschluss-Muster angeben kannst, musst du eben das Ergebnis der RegEx-Auswertung negieren.

    Es ist allerdings ohne große Probleme möglich, einen PCRE zu bauen, der obiges Muster ausschließt[1], wie das folgende (provisorische) Test-Script beweist:
    PHP-Code:
    $pcre '/([\/\x5c])(?!\.(svn|cvs)\\1)(?=.)/i';
    $haystack = array (
       
    '/.cvs/'// sollte nicht passen
       
    '/.svn/'// sollte nicht passen
       
    '/.c/',   // sollte passen
       
    '/.cvs',  // sollte passen
       
    '/svn/',  // sollte passen
    );
    foreach (
    $haystack as $val) {
      
    debug_writefln('"%s" -- passt? %s'$valpreg_match($pcre$val));

    *nachschieb*
    Offensichtlich verschluckt dieses Board[2] Backslashes. Mein Script ist unter diesem Aspekt zu betrachten. Beim Kopiereren also besser über die "Zitieren"-Funktion gehen. :-/

    --
    [1] Vorausgesetzt, ich habe dein RegEx-Pattern richtig interpretiert.
    [2] Hochwertige Qualitätssoftware eben ... ;-)
    Zuletzt geändert von fireweasel; 29.10.2008, 11:33.
    Klingon function calls do not have “parameters”‒they have “arguments”‒and they always win them!

    Kommentar


    • #3
      Re: Re: Regex negieren?

      Und der matcht worauf? Wahrscheinlich auf gar nichts -- bei mir gabs 'nen PCRE-Syntax-Fehler. Irgendwie hast du die runden Klammern fürs Subpattern vergessen, und deine Backslashes sind nicht richtig escaped.
      Die runden Klammern sind nicht nötig, ich meine durchaus ".svn" und "CVS", nicht wie du ".svn" und ".cvs". Und wenn du den Regex so direkt ins PHP-Skript übernimmst, muss du die Backslashs natürlich escapen. Dann matcht mein Ausdruck auch: http://regexp-evaluator.de/evaluator...2725/#ergebnis.

      Ich verstehe nicht, wo bei dieser Vorgehensweise das Problem ist. Wenn du nur ein Ausschluss-Muster angeben kannst, musst du eben das Ergebnis der RegEx-Auswertung negieren.
      Richtig, habe ich momentan auch getan. Die RegexIterator-Klasse erlaubt dies allerdings nicht direkt, so dass ich diese erst erweitern musste.

      Es ist allerdings ohne große Probleme möglich, einen PCRE zu bauen, der obiges Muster ausschließt[1], wie das folgende (provisorische) Test-Script beweist
      Das sieht ziemlich gut aus. Ich habe mir schon gedacht, dass ich mit einem Lookaround ans Ziel komme, allerdings habe ich das gestern nicht mehr gebacken bekommen.
      Vielen Dank schon mal, ich werde mir das mal näher ansehen.

      Kommentar


      • #4
        Re: Re: Re: Regex negieren?

        Original geschrieben von PHP-Desaster
        Die runden Klammern sind nicht nötig, ich meine durchaus ".svn" und "CVS", nicht wie du ".svn" und ".cvs".
        Ähemm, *hüstel* ...
        Ich hab ja auch geschrieben: "Vorausgesetzt, ich habe dein RegEx-Pattern richtig interpretiert."

        Aber:

        '\.svn|CVS' würde ohne Klammern auf einen String wie '/bla/.svn|CVS' matchen.
        ... sagt übrigens auch dein interaktives RegExp-Spielzeug:
        http://regexp-evaluator.de/evaluator...a0b2/#ergebnis

        Und das kleine 'i' am Ende deines RegEx sagt mir (und den meisten RegEx-Engines, die ich kenne), dass Groß- und Kleinschreibung ignoriert wird. Ob du dann im RegEx-Pattern selbst 'CVS' oder 'cvs' schreibst, ist der RegEx-Engine egal. Mir sparte es einen Tastendruck (auf die Shift-Taste) ... :-)

        Und wenn du den Regex so direkt ins PHP-Skript übernimmst, muss du die Backslashs natürlich escapen.
        Naja, irgendwann wolltest du das auch sicher tun, oder? ;-)

        Aufs Backslash-Escaping muss man nicht nur bei Regulären Ausdrücken achten, auch wenn man einen gewöhnlichen String in ein PHP-String-Literal mit einfachen Hochkommas einbaut, also sowas:
        'bla\\blubb'. Schon da muss der Backslash escaped werden. Für PCRE muss das dann (meistens) noch mal gemacht werden. Weil das oft zu Verwirrungen führt, hab ich mir für Backslashes die PCRE-Hex-Notation angewöhnt.

        Darauf und auch auf viele andere Strings. Du solltes aber vor allem "Gegenproben" machen um zu prüfen, ob dein RegEx was taugt.

        Das sieht ziemlich gut aus. Ich habe mir schon gedacht, dass ich mit einem Lookaround ans Ziel komme, allerdings habe ich das gestern nicht mehr gebacken bekommen.
        Vielen Dank schon mal, ich werde mir das mal näher ansehen. [/B]
        Die in meinem Beispiel verwendeten
        Lookahead-Assertions handelt der RegExp-Evaluator auf seinen Tutorial-Seiten auch (kurz und knapp) ab.

        Was das SPL-Gewurstel angeht: Wäre es nicht (einfacher|sinnvoller) eine Klasse abzuleiten und mit einer zusätzlichen Methode ::reject() auszurüsten, die einfach das Ergebnis von ::accept() negiert zurückgibt?
        Zuletzt geändert von fireweasel; 29.10.2008, 13:04.
        Klingon function calls do not have “parameters”‒they have “arguments”‒and they always win them!

        Kommentar


        • #5
          Re: Re: Re: Re: Regex negieren?

          Ok ok, der Regex scheint echt noch Käse zu sein ^^

          Das ich Backslashe zu escapen habe ist mir klar. Beim Eröffnen des Threads fand ich aber übersichtlicher nur den Regex an sich zu posten, um Verwirrung zu vermeiden. Ist wohl in die Hose gegangen...

          Was das SPL-Gewurstel angeht: Wäre es nicht (einfacher|sinnvoller) eine Klasse abzuleiten und mit einer zusätzlichen Methode ::reject() auszurüsten, die einfach das Ergebnis von ::accept() negiert zurückgibt?
          Ja klar kann ich das. Das bringt mir aber herzlich wenig, wenn die accept-Methode aufgerufen wird

          Kommentar


          • #6
            Hab ich in der Zwischenzeit schon mitbekommen. ;-)

            Eine Methode, die bestimmte Suchmuster "abweist", ::accept() zu nennen, finde ich aber schlechten Stil. Das kann bei der Benutzung der Klasse zu Verwirrungen führen, auch wenn die Klasse selbst das Wort "Negate" im Namen führt. An der konkreten Stelle im Quellcode, wo die ::accept()-Methode aufgerufen wird, sieht man das dann nicht.

            Bei den "üblichen" Anwendungen über foreach oder der Art "Iterator-of-Iterator" (wie du sie hier gebaut hast) kann man natürlich nicht auf eine "angebaute" Methode zugreifen. Das ist einer der Gründe, weswegen ich mir meine Klassen lieber selber baue. ;-)

            Ich hab mal ein bisschen in der SPL-Doku gestöbert: Offensichtlich bietet RegexIterator selbst keinerlei Möglichkeit (Einstellungen oder Methoden), um die "Filterung umzukehren".

            Aber RegexIterator ist doch eine Art Filter, abgeleitet von einer generischen Filter-Klasse. Möglicherweise hat eine übergeordnete Klasse von RegexIterator die Fähigkeit, "invertiert" zu filtern. Sollte das nicht der Fall sein (ich hab jetzt auf die Schnelle nichts Brauchbares gefunden), wäre das ein Armutszeugnis (aber bei PHP wundert mich mittlerweile gar nichts mehr).
            Zuletzt geändert von fireweasel; 29.10.2008, 18:21.
            Klingon function calls do not have “parameters”‒they have “arguments”‒and they always win them!

            Kommentar


            • #7
              Die übergeordneten Klassen bieten keine Möglichkeit zur sauberen Negation. Die Ebene, wo man irgendwas negieren könnte, besteht nur aus FilterIterator und da wird eben der Name accept() schon vorgegeben.

              Wenn man den hier zur Diskussion stehenden Filter für sich allein betrachtet, ist er ein Filter wie jeder andere. Er akzeptiert oder eben nicht, genauso wie der Filter, der zufällig die Negation von ihm darstellt.

              Eine Methode reject() würde man nur aufrufen, wenn man das bekommen möchte, was der Filter gerade nicht durchläßt. Der Code würde sich dann ungefähr so lesen: "Wenn es rausgefiltert wird, ist es valide und ich kann damit weiterarbeiten."
              Das widerspricht in meinen Augen dem Sinn eines Filters, der da wäre "alles was nicht rausgefiltert wird ist valide" oder speziell für Regex-Filter "alles was matcht ist valide.
              Kurzum: Die Negation in den Regex einzubauen, erscheint mir viel sinnvoller, als eine Antifilter-Klasse.

              Kommentar


              • #8
                Kurzum: Die Negation in den Regex einzubauen, erscheint mir viel sinnvoller, als eine Antifilter-Klasse.
                Da bin ich genau deiner Meinung. Und wenn ich etwas mehr Zeit habe, werde ich auch versuchen das Beispiel von fireweasel entsprechend zu verwenden. Wenn das klappt, fällt die NegateRegexIterator-Klasse wieder weg.

                Kommentar

                Lädt...
                X