preg_replace erzeugt Sonderzeichen

Collapse
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • preg_replace erzeugt Sonderzeichen

    Hallo,

    habe ein kleines Skript welches einen UTF-8 String aus einer MySQL Datenbank ausliest.

    Mit folgendem Code-Schnippsel möchte ich alle Sonderzeichen entfernen:

    PHP Code:
    $pattern "/[^a-zA-Z0-9äöüÄÖÜß]/";
    $text preg_replace($pattern," ",$text); 
    Das Problem ist nachher nur, das es in dem Text anscheinend "besondere" Anführungszeichen gibt. Das letzte von beiden wird bei der Ausgabe als "Weißes Fragezeichen auf schwarzem Grund" ausgegeben. Aber auch nur, wenn ich das Ü im Pattern verwende.

    Entfernen der Anführungszeichen mittels:
    PHP Code:
    $text str_replace('"'""$text); 
    brachte auch nicht den gewünschten Erfolg.

    Bis auf diese Fehlinterpretation, funktioniert das Ganze einwandfrei. Natürlich ist das immer so eine Sache mit den Umlauten über SSH in VIM zu arbeiten, deshalb probierte ich auch noch ein anderes Pattern

    PHP Code:
    $text preg_replace('/[^<>&!-%x27-;=?-~ ]/e',"",$text); 
    Ich habe ehrlich gesagt keine Ahnung wie es funktioniert. Es ersetzt jedoch auch alle Sonderzeichen einschließlich den Umlauten. Um noch mehr Fehlerquellen auszuschließen wäre es vielleicht einfach das Pattern entsprechend zu erweitern das die Umlaute nicht entfernt werden.

    Ansonsten sind bereits folgende Fehlerquellen ausgeschlossen: Putty ist auf UTF-8 getrimmt. Die Konsole kann UTF-8 und die Datei so wie VIM sind auch mit
    :set encoding=utf-8
    :set fileencoding=utf-8

    bearbeitet.

    Ich wäre auch dankbar für einen ganz anderen Lösungsweg. Ziel ist es einfach nur alle Sonderzeichen aus einem UTF-8 String zu entfernen. Die Lösung soll dabei dem Whitelist Ansatz folgen und nicht dem Blacklist Ansatz. Ich will also sagen können, welche Zeichen erlaubt sind und nicht alle Möglichkeiten auflisten, die nicht erlaubt sind.

    Bei der PHP Version handelt es sich um: PHP 5.2.4-2ubuntu5.5

    Vielen Dank für deine Mühe.

    Viele Grüße
    Master.of.Freaks
    Last edited by MasterOfFreaks; 09-11-2009, 10:58. Reason: PHP Version vergessen

  • #2
    preg_replace arbeitet wie (fast) alle PHP Funktionen von Hause aus nur mit iso-8859-1
    preg_replace kennt allerdings auch einen Unicode Modifikator


    Alternativ:
    1. die mb_*() Funktionen
    2. auf PHP6 warten
    Wir werden alle sterben

    Comment


    • #3
      Den Unicode Modifikator habe ich nicht gefunden. Vielleicht könntest du zu diesem nochmal kurz etwas sagen. Ansonsten habe ich mir jetzt erstmal damit beholfen:

      PHP Code:
              $text utf8_decode($text);
              
      $text preg_replace("/[^A-Za-z0-9äöüÄÖÜß]/"," "$text);
              
      $text utf8_encode($text); 
      Elegant ist zwar etwas anderes, aber was soll man machen.

      Comment


      • #4
        Hallo,

        Originally posted by MasterOfFreaks View Post
        Den Unicode Modifikator habe ich nicht gefunden. Vielleicht könntest du zu diesem nochmal kurz etwas sagen.
        Guckst du hier (in der Box ganz unten).

        Gruß,

        Amica
        [COLOR="DarkSlateGray"]Hast du die [COLOR="DarkSlateGray"]Grundlagen zur Fehlersuche[/color] gelesen? Hast du Code-Tags benutzt?
        Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
        Super, danke!
        [/COLOR]

        Comment


        • #5
          Okay, irgendwie stehe ich auf dem Schlauch:

          PHP Code:
          //      $text = utf8_decode($text);
                  
          $text preg_replace("/[^A-Za-z0-9äöüÄÖÜß]/u"," "$text);
          //      $text = utf8_encode($text); 
          Auf jeden Fall bekomme ich folgende Meldung:
          Code:
          Warning: preg_replace() [function.preg-replace]: Compilation failed: invalid UTF-8 string at offset 12 in /words.php on line 28

          Comment


          • #6
            Dann ist dein Skript selbst nicht UTF-8 und daher die Umlaute keine gültigen UTF-8-Sequenzen.

            Edit: nimm doch gleich "/\\PL/u", dann matcht du alles, was kein Buchstabe ist - egal ob Latein, Kyrillisch oder sonstwas. Wer anfängt, einzelne Umlaute zu behandeln, kommt ganz schnell in Schwierigkeiten, wenn mal jemand André oder René heißt oder jemand 20 Stück à 2,-€ bestellen will.
            Last edited by AmicaNoctis; 09-11-2009, 10:59.
            [COLOR="DarkSlateGray"]Hast du die [COLOR="DarkSlateGray"]Grundlagen zur Fehlersuche[/color] gelesen? Hast du Code-Tags benutzt?
            Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
            Super, danke!
            [/COLOR]

            Comment


            • #7
              Danke für den Hinweis, wir werden sofort eine neue Kasse eröffnen

              Hatte es zwischenzeitlich mal mit Latin-1 probiert aber nachdem ich jetzt wieder

              Code:
              :set encoding=utf-8
              :set fileencoding=utf-8
              gesetzt habe in VIM klappt es auch mit dem Nachbar.

              Also nochmal im ganzen Satz:
              PHP Code:
              $text preg_replace("/[^A-Za-z0-9äöüÄÖÜß]/u"," "$text); 
              Vielen Dank !!!

              Master.of.Freaks

              Comment

              Working...
              X