preg_replace erzeugt Sonderzeichen

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • preg_replace erzeugt Sonderzeichen

    Hallo,

    habe ein kleines Skript welches einen UTF-8 String aus einer MySQL Datenbank ausliest.

    Mit folgendem Code-Schnippsel möchte ich alle Sonderzeichen entfernen:

    PHP-Code:
    $pattern "/[^a-zA-Z0-9äöüÄÖÜß]/";
    $text preg_replace($pattern," ",$text); 
    Das Problem ist nachher nur, das es in dem Text anscheinend "besondere" Anführungszeichen gibt. Das letzte von beiden wird bei der Ausgabe als "Weißes Fragezeichen auf schwarzem Grund" ausgegeben. Aber auch nur, wenn ich das Ü im Pattern verwende.

    Entfernen der Anführungszeichen mittels:
    PHP-Code:
    $text str_replace('"'""$text); 
    brachte auch nicht den gewünschten Erfolg.

    Bis auf diese Fehlinterpretation, funktioniert das Ganze einwandfrei. Natürlich ist das immer so eine Sache mit den Umlauten über SSH in VIM zu arbeiten, deshalb probierte ich auch noch ein anderes Pattern

    PHP-Code:
    $text preg_replace('/[^<>&!-%x27-;=?-~ ]/e',"",$text); 
    Ich habe ehrlich gesagt keine Ahnung wie es funktioniert. Es ersetzt jedoch auch alle Sonderzeichen einschließlich den Umlauten. Um noch mehr Fehlerquellen auszuschließen wäre es vielleicht einfach das Pattern entsprechend zu erweitern das die Umlaute nicht entfernt werden.

    Ansonsten sind bereits folgende Fehlerquellen ausgeschlossen: Putty ist auf UTF-8 getrimmt. Die Konsole kann UTF-8 und die Datei so wie VIM sind auch mit
    :set encoding=utf-8
    :set fileencoding=utf-8

    bearbeitet.

    Ich wäre auch dankbar für einen ganz anderen Lösungsweg. Ziel ist es einfach nur alle Sonderzeichen aus einem UTF-8 String zu entfernen. Die Lösung soll dabei dem Whitelist Ansatz folgen und nicht dem Blacklist Ansatz. Ich will also sagen können, welche Zeichen erlaubt sind und nicht alle Möglichkeiten auflisten, die nicht erlaubt sind.

    Bei der PHP Version handelt es sich um: PHP 5.2.4-2ubuntu5.5

    Vielen Dank für deine Mühe.

    Viele Grüße
    Master.of.Freaks
    Zuletzt geändert von MasterOfFreaks; 09.11.2009, 11:58. Grund: PHP Version vergessen

  • #2
    preg_replace arbeitet wie (fast) alle PHP Funktionen von Hause aus nur mit iso-8859-1
    preg_replace kennt allerdings auch einen Unicode Modifikator


    Alternativ:
    1. die mb_*() Funktionen
    2. auf PHP6 warten
    Wir werden alle sterben

    Kommentar


    • #3
      Den Unicode Modifikator habe ich nicht gefunden. Vielleicht könntest du zu diesem nochmal kurz etwas sagen. Ansonsten habe ich mir jetzt erstmal damit beholfen:

      PHP-Code:
              $text utf8_decode($text);
              
      $text preg_replace("/[^A-Za-z0-9äöüÄÖÜß]/"," "$text);
              
      $text utf8_encode($text); 
      Elegant ist zwar etwas anderes, aber was soll man machen.

      Kommentar


      • #4
        Hallo,

        Zitat von MasterOfFreaks Beitrag anzeigen
        Den Unicode Modifikator habe ich nicht gefunden. Vielleicht könntest du zu diesem nochmal kurz etwas sagen.
        Guckst du hier (in der Box ganz unten).

        Gruß,

        Amica
        [COLOR="DarkSlateGray"]Hast du die [COLOR="DarkSlateGray"]Grundlagen zur Fehlersuche[/color] gelesen? Hast du Code-Tags benutzt?
        Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
        Super, danke!
        [/COLOR]

        Kommentar


        • #5
          Okay, irgendwie stehe ich auf dem Schlauch:

          PHP-Code:
          //      $text = utf8_decode($text);
                  
          $text preg_replace("/[^A-Za-z0-9äöüÄÖÜß]/u"," "$text);
          //      $text = utf8_encode($text); 
          Auf jeden Fall bekomme ich folgende Meldung:
          Code:
          Warning: preg_replace() [function.preg-replace]: Compilation failed: invalid UTF-8 string at offset 12 in /words.php on line 28

          Kommentar


          • #6
            Dann ist dein Skript selbst nicht UTF-8 und daher die Umlaute keine gültigen UTF-8-Sequenzen.

            Edit: nimm doch gleich "/\\PL/u", dann matcht du alles, was kein Buchstabe ist - egal ob Latein, Kyrillisch oder sonstwas. Wer anfängt, einzelne Umlaute zu behandeln, kommt ganz schnell in Schwierigkeiten, wenn mal jemand André oder René heißt oder jemand 20 Stück à 2,-€ bestellen will.
            Zuletzt geändert von AmicaNoctis; 09.11.2009, 11:59.
            [COLOR="DarkSlateGray"]Hast du die [COLOR="DarkSlateGray"]Grundlagen zur Fehlersuche[/color] gelesen? Hast du Code-Tags benutzt?
            Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
            Super, danke!
            [/COLOR]

            Kommentar


            • #7
              Danke für den Hinweis, wir werden sofort eine neue Kasse eröffnen

              Hatte es zwischenzeitlich mal mit Latin-1 probiert aber nachdem ich jetzt wieder

              Code:
              :set encoding=utf-8
              :set fileencoding=utf-8
              gesetzt habe in VIM klappt es auch mit dem Nachbar.

              Also nochmal im ganzen Satz:
              PHP-Code:
              $text preg_replace("/[^A-Za-z0-9äöüÄÖÜß]/u"," "$text); 
              Vielen Dank !!!

              Master.of.Freaks

              Kommentar

              Lädt...
              X