[REGEX] Binären Müll / Steuerzeichen raushauen!?

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • [REGEX] Binären Müll / Steuerzeichen raushauen!?

    Hi,

    ich habe eine riesige Datei (~7,5MB) voll mit Daten bekommen.
    Die Datei ist irgendein Dump von einer binären Datenbank, aber keiner weiss genau welches :-/

    Im Text sind viele Steuerzeichen, aber halt auch Kunden-Adressen und Emails. Wie kann ich diese relevanten Daten nun mit REGEXP rausfiltern?

    Kann eigentlich nicht SOO schwer sein... aber ich kanns nicht

    Wäre nett, wenn mir jmd helfen könnte.

    Es sind halt alphanumerische Zeichen, sowie @ und Punkt.

    Grüße,
    Lopez

  • #2
    Kann eigentlich nicht SOO schwer sein... aber ich kanns nicht
    und wir können es auch nicht. zumindest nicht ohne irgend einen anhaltspunkt, wonach man suchen und trennen kann.
    INFO: Erst suchen, dann posten![color=red] | [/color]MANUAL(s): PHP | MySQL | HTML/JS/CSS[color=red] | [/color]NICE: GNOME Do | TESTS: Gästebuch[color=red] | [/color]IM: Jabber.org |


    Kommentar


    • #3
      preg_replace(/?<!.*[0-9A-Z].*/i,"");


      oder??? Ich habs nochnich so mit regexps!!
      Die Musikreview Seite

      hi, i'm a signature virus. copy me into your signature to help me spread.

      Kommentar


      • #4
        okay, sehe grade:

        (?<!xxx)
        Negiert das angegebene Pattern und wirkt sich auf das nachfolgende aus.

        naja, hätt ja sein können
        Die Musikreview Seite

        hi, i'm a signature virus. copy me into your signature to help me spread.

        Kommentar


        • #5
          Anhaltspunkt

          und wir können es auch nicht. zumindest nicht ohne irgend einen anhaltspunkt, wonach man suchen und trennen kann
          Im Texteditor Editplus seh ich nur Kästchen, im Notepad sinds Leerzeichen, und dazwischen Name, Adressen, und Email-Adressen halt.

          Am wichtigsten wären die Email-Adressen, um die Kunden anzuschreiben.

          Vor und hinter der Email-Adresse sind nur Zeichen, die NICHT in einer Mail-Adresse vorkommen dürfen...

          Reicht das als Info?

          Kommentar


          • #6
            na dann ersetz doch alles was nicht rein darf...

            etwa so:
            preg_replace("/[^\da-z_\.@-]/i",'',$string);
            Beantworte nie Threads mit mehr als 15 followups...
            Real programmers confuse Halloween and Christmas because OCT 31 = DEC 25

            Kommentar

            Lädt...
            X