Grundlagen PHP: Sonderzeichen konvertieren

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Grundlagen PHP: Sonderzeichen konvertieren

    Hier geht es um die Sonderzeichenproblematik im Quelltext und im Dateisystem sowie um
    eine Möglichkeit der Transformation.

    Dazu habe ich eine Aufzählung mit den bei mir zu behandelnden Sonderzeichen erstellt.


    A,Á,%C1,&Aacut;
    A,À,%C0,&Agrav;
    A,Â,%C2,&Acir;
    A,Ã,%C3,&Atild;
    a,á,%E1,&aacut;
    a,à,%E0,&agrav;
    a,â,%E2,&acir;
    a,ã,%E3,&atild;
    Ae,Ä,%C4,&Aum;
    ae,ä,%E4,&aum;
    C,Ç,%C7,&Ccedi;
    c,ç,%E7,&ccedi;
    E,É,%C9,&Eacut;
    E,È,%C8,&Egrav;
    E,Ê,%CA,&Ecir;
    e,é,%E9,&eacut;
    e,è,%E8,&egrav;
    e,ê,%EA,≖
    I,Í,%CD,&Iacut;
    I,Ì,%CC,&Igrav;
    i,í,%ED,&iacut;
    i,ì,%EC,&igrav;
    O,Õ,%D5,&Otild;
    O,Ô,%D4,&Ocir;
    O,Ó,%D3,&Oacut;
    o,õ,%F5,&otild;
    o,ô,%F4,⊚
    o,ó,%F3,&oacut;
    Oe,Ö,%D6,&Oum;
    oe,ö,%F6,&oum;
    U,Ú,%DA,&Uacut;
    u,ú,%FA,&uacut;
    Ue,Ü,%DC,&Uum;
    ue,ü,%FC,&uum;

    Muste die letzte Spalte um das letzte Zeichen kürzen, weil sonst ein Darstellungsfehler auftritt.

    Erläuterung:
    Das erste Zeichen ist das Ersatzzeichen, das zweite das Zeichen, wie es im Browser zu
    sehen ist, das dritte, wie es im Dateisystem zu finden ist und das vierte, wie es im Quelltext
    vorhanden ist. Zum dritten Zeichen bleibt hier zu sagen, das es auf Servern nicht einsetzbar
    ist, wenn es über Browser aufgerufen werden soll und deshalb hier die Ersatzzeichen zum Einsatz kommen.


    Die dazu gehörende Aufgabenstellung:

    In einer vorbereiteten Datei stehen separiert in Zeilen Daten mit diesem Schema:

    Instrução #<a href="http://www.website/pfad/zur/Datei/

    Die Aufgabe ist zeilenweises Einlesen, überprüfen des Wortes vor dem # auf Sonderzeichen.
    Wenn gefunden, mit dem ersten Zeichen der entsprechenden Zeile der
    Auflistung austauschen. In beiden Fällen das originale oder das modifizierte Wort an das
    Ende der Zeile schreiben.
    Ein .php"> ist anzufügen. Zustand jetzt:

    Instrução #<a href="http://www.website/pfad/zur/Datei/Instrucao.php">

    Danach die Buchstaben des ersten Wortes gegebenenfalls mit den vierten Zeichen der
    Auflistung austauschen, so das Wir die Bezeichnung für den Quellcode erhalten und fügen
    das Endtag ein:</a>
    Zustand jetzt:

    Instrução #<a href="http://www.website/pfad/zur/Datei/Instrucao.php">
    Instru&ccedi&atildo</a>

    Jedes erste Wort vor dem # soll in eine Datei "Dateinamen" geschrieben werden.
    Entweder als Original oder als von Sonderzeichen befreites Wort.
    Fertig.


    Ablaufplan:

    Einlesen in Array Sonderzeichentabelle
    [0] = Ersatzzeichen
    [1] = Suchzeichen
    [2] = Dateisystemzeichen
    [3] = Quellcodezeichen

    Lies erste Zeile von "Vorbereitet.txt"
    Lies das Wort vor #
    Überprüfe, ob die Buchstaben in [1] vorkommen.
    Wenn ja, tausche mit [0] aus.
    Schreibe das Wort in Datei "Dateinamen".
    Schreibe das Wort ans Ende der Zeile und füge .php"> ein.
    Immer noch wenn ja, tausche mit [3] aus, schreibe ans Ende der Zeile und füge </a> an.
    Wenn nein, schreibe das Wort in die Datei "Dateinamen".
    Schreibe das Wort ans Ende der Zeile und füge .php"> ein.
    Schreibe das Wort ans Ende der Zeile und füge </a> an.
    Fertig.

    Umsetzungsversuch:

    PHP-Code:
    <?php
    $ArbDat 
    'Vorbereitet.txt';
    $ArbZ file ("$ArbDat");
    foreach (
    $ArbZ as $value) { 
                                    
    $teile explode("#"$value);
                                    
                             }
    echo 
    $teile[1];

    ?>
    Mit diesem Code habe ich jetzt eine Zeile ansprechbar über $teile[0] / $teile[1] .

    Daraus ergeben sich folgende Fragen:

    Wie definiere ich, das $teile[0] (das zu überprüfende Wort) buchstabenweise mit allen Array[1] der
    Transformationsaufzählung verglichen wird.

    Wie binde ich am besten diese Transformationsaufzählung ein?
    Soll ich sie im Code selber zeilenweise aufbauen (bitte ein Beispiel einer Zeile) oder als eigene Datei
    einlesen lassen oder was ist das beste Vorgehen, damit $teile[0] buchstabenweise mit allen Sonderzeichen des Array[1] verglichen wird?

    Gruß
    Estrela
    Zuletzt geändert von Estrela; 24.06.2008, 21:56.
    Denk positiv.

  • #2
    Ohne lange nachzuprüfen, sehen die Sachen für mich wie urlencoded Zeichen aus warum musst du sie ersetzen?
    Zuletzt geändert von asp2php; 24.06.2008, 18:46.

    Kommentar


    • #3
      Re: Grundlagen PHP: Sonderzeichen konvertieren

      Original geschrieben von Estrela
      Wie definiere ich, das $teile[0] (das zu überprüfende Wort) buchstabenweise mit allen Array[1] der Transformationsaufzählung verglichen wird.
      Das macht str_replace() für dich. Es läuft quasi über dein String und ersetzt alle Vorkommen des Suchstrings. Genaueres steht im Manual.
      Wie binde ich am besten diese Transformationsaufzählung ein?
      Ich würde ein multidimensionales Array anlegen und einzelne Subarrays davon an str_replace() übergeben.
      PHP-Code:
      $chars = array(
          
      'replace' => array('A', ...),
          
      'browser' => array('Á', ...),
          
      'filesystem' => array('%C1', ...),
          
      'source' => array('Á', ...),
      );
      $text str_replace($text$chars['filesystem'], $chars['source']); 
      Ich habe allerdings (auch?) nicht ganz begriffen, was du vorhast. Wo kommen die Zeichen her und warum müssen sie ersetzt werden?

      Kommentar


      • #4
        Hallo asp2php.

        Wie die Sonderzeichen im Dateisystem oder Quellcode heißen, weiß ich nicht. Ist ja auch nicht so wichtig, es sei denn, es gäbe eine Funktion in PHP, die solche Umwandlungen vornehmen kann.
        Der Sinn der Konvertierung soll sein, valide Links zu erstellen, die woanders weiterverwendet werden.


        @onemorenerd

        Bedeutet Dein Beispiel eines Array´s, das ich pro Zeichen vier Definitionen schreiben muß?
        Das währen bei 34 Sonderzeichen x 4 = 136 Definitionen. Das scheint mir etwas umständlich.

        Vielleicht kann man ja das Wort vor # mit einer Funktion derartig überprüfen:

        Prüfe die Buchstaben des Wortes auf ungleich a-zA-Z
        Wenn gleich, schreibe das Wort ans Ende der Zeile, füge ein .php"> ein, schreibe das Wort nochmal ans Ende der Zeile und füge ein </a> ein. Fertiger Link ist erstellt.

        Wenn ungleich, dann überprüfe, ob das Sonderzeichen in Array[1] der Übersetzungstabelle zu finden ist.
        Wenn nicht, schreibe das Wort in eine Datei namens "Neues_Sonderzeichen".

        Wenn ja, ersetze das Sonderzeichen mit Array[0] der selben Zeile der Sonderzeichen-Übersetzungstabelle.
        Wenn jeden Buchstaben überprüft, schreibe das Wort ans Ende der Zeile und füge .php"> ein. Wir haben also einen validen Dateinamen erzeugt.
        Schreibe diesen Dateinamen in eine Datei namens Dateinamen.txt

        Überprüfe das selbe Wort nochmal, wenn Sonderzeichen enthalten waren und tausche diesesmal mit Array[3] der Sonderzeichen-Übersetzungstabelle.
        Wenn alle Sonderzeichen ersetzt, schreibe dieses Wort ans Ende der Zeile und füge ein</a> an. Wir haben also gerade einen Linktext in Quellcode erstellt und damit einen validen Link.

        Beispiel:
        Instrução #
        Überprüfung findet ç
        Daraufhin werden die Array[1] der Übersetzugstabelle überprüft und liefern die Zeile:
        c,ç,%E7,&ccedi; // Wg Darstellung letztes Zeichen gekürzt
        Nimm zum Austausch Array[0], also das c Zwischenergebnis = Instrucão
        Überprüfe nächsten Buchstaben, also ã, tausche mit a Endergebnis = Instrucao
        Endergebnis zur Dateinamensgebung.

        Zweite Überprüfung des selben Wortes Instrução
        Findet ç, liedert die Zeile c,ç,%E7,&ccedi; // Wg Darstellung letztes Zeichen gekürzt
        Tausche diesesmal mit Array[3], also &ccedil Zwischenergebnis = Instru&ccedião // Wg Darstellung letztes Zeichen gekürzt
        Suche das nächste Sonderzeichen also ã, tausche mit &atild = Instru&ccedi&atildo // Wg Darstellung letztes Zeichen gekürzt
        Dies ist die Darstellung im Quelltext.


        Zu Deiner Frage:
        Die Wörter vor # sind Verben in Portugiesisch, die auf Übersetzungsdateien verweisen sollen. Wenn aber das Verb Sonderzeichen enthällt, müssen diese den Konventionen gemäß übersetzt werden.

        Wenn ein Coder mit flinken Fingern diese Funktion darstellen könnte, währe das schon fast die Lösung.
        Ansonsten währe es sehr hilfreich, mir eine konkrete Programmstruktur vorzugeben, in denen die Abläufe (Schleifen und ähnliches) vorgegeben ist und nur die Befehle aufgeführt sind, die ich dann zum laufen bringe übe.

        Gruß
        Estrela
        Zuletzt geändert von Estrela; 24.06.2008, 22:24.
        Denk positiv.

        Kommentar


        • #5
          Der Sinn der Konvertierung soll sein, valide Links zu erstellen, die woanders weiterverwendet werden.
          Das stichwort urlencode auch als Funktion zu verwenden ist ja schon gefallen.

          Kommentar


          • #6
            Hallo TobiaZ.

            Der angesprochene Befehl urlencode selbst ist hier ja nicht so interesant, weil dieser die oben angesprochene Dateiebene betrifft, die ich ja hier mit den Ersatzzeichen ersetzen will, weil diese Zeichen %E1 usw nicht über Browser erreichbar sind.

            Aber der Befehl htmlentities ist interessant, um den Quellcode zu erstellen.

            Hast Du denn eine Idee, wie die Sonderzeichen einfach in die Zeichen der Grundform überführt werden können, also aus ç wird c ?

            Gruß
            Estrela
            Denk positiv.

            Kommentar


            • #7
              Original geschrieben von Estrela
              Bedeutet Dein Beispiel eines Array´s, das ich pro Zeichen vier Definitionen schreiben muß?
              Das währen bei 34 Sonderzeichen x 4 = 136 Definitionen. Das scheint mir etwas umständlich.
              Die normalen Buchstaben kannst du mit range() erzeugen.
              Schau dir auch mal die User Comments zu chr() an!

              Kommentar


              • #8
                Hallo.

                Ich habe hier mal versucht, ein Grundgerüst zu erstellen.
                Leider kommt keine Fehlermeldung.
                Ich versuche probehalber, das A gegen das a auszutauschen.
                Wie ist es richtig?

                PHP-Code:
                <?php
                $ArbDat 
                'Vorbereitet.txt';
                $ArbZ file ("$ArbDat");
                foreach (
                $ArbZ as $value) { 
                                                
                $TeilZeil explode("#"$value);
                                                
                $TeilZeil manipulate($TeilZeil);
                                         }

                                            

                    return 
                $TeilZeil;
                }
                function 
                manipulate($TeilZeil) {
                                            
                $TeilZeil preg_replace('A','a',$TeilZeil);
                                            )

                echo 
                $TeilZeil[0];

                ?>
                Gruß
                Estrela
                Denk positiv.

                Kommentar


                • #9
                  Wie hast du es denn gemacht? Richtig wäre es straight forward mit str_replace(). Wo ist dein Problem?

                  Kommentar


                  • #10
                    Hallo onemorenerd.

                    Das Problem ist, das das erste echo schön alle Teile auflistet, während nach Aufruf der Funktion nichts mehr angezeigt wird, was mich zu dem Schluß bringt, das mit der Funktion was nicht stimmt. Aber was?
                    Der Code:
                    PHP-Code:
                    <?php
                    $ArbDat 
                    'Vorbereitet.txt';
                    $ArbZ file ("$ArbDat");
                    foreach (
                    $ArbZ as $value) { 
                                                    
                    $TeilZeil explode("#"$value);
                                                    
                    //echo $TeilZeil[0];
                                                    
                    $TeilZeil[0] = manipulate($TeilZeil[0]);
                                              }

                                                
                    function 
                    manipulate($TeilZeil[0]) {
                                                
                    $TeilZeil[0] = str_replace('A','a',$TeilZeil[0]);
                                                return 
                    $TeilZeil[0];
                                                     }

                    echo 
                    $TeilZeil[0]; 

                    ?>
                    Gruß
                    Estrela
                    Denk positiv.

                    Kommentar


                    • #11
                      function manipulate($TeilZeil) { ... }

                      So wird ein Schuh draus.

                      Kommentar


                      • #12
                        Hallo onemorenerd.

                        Danke.
                        Mit diesem Code:

                        PHP-Code:
                        <?php
                        $ArbDat 
                        'Vorbereitet.txt';
                        $ArbZ file ("$ArbDat");
                        foreach (
                        $ArbZ as $value) { 
                                                        
                        $TeilZeil explode("#"$value);
                                                        
                        //echo $TeilZeil[0];
                                                        
                        $TeilZeil[0] = manipulate($TeilZeil[0]);
                                                        echo 
                        '<b>'.$TeilZeil[0].'</b>'.'<br />';
                                                  }

                                                    
                        function 
                        manipulate($ManiTeilZeil) {
                                                    
                        $TeilZeil str_replace('ç','c',$ManiTeilZeil);
                                                    return 
                        $ManiTeilZeil;
                                                         }

                        //echo $TeilZeil[0]; 

                        ?>
                        bekomme ich jetzt die Inhalte schön angezeigt, aber ohne den Austausch.
                        Wieso? Sieht doch alles ganz logisch aus.

                        Gruß
                        Estrela
                        Denk positiv.

                        Kommentar


                        • #13
                          PHP-Code:
                          $TeilZeil = ...;
                          return 
                          $ManiTeilZeil
                          Übrigens: file("$ArbDat") ist Unsinn. file($ArbDat) wäre korrekt.

                          Kommentar


                          • #14
                            Hallo onemorenerd.

                            Jou, so sieht es noch logischer aus. Danke.
                            Ich habe jetzt erfolgreich auf den neuen Befehl umgestellt.
                            PHP-Code:
                            function manipulate($ManiTeilZeil) {
                                                        
                            //$ManiTeilZeil = str_replace('ç','ç',$ManiTeilZeil);
                                                        
                            $ManiTeilZeil htmlentities ("$ManiTeilZeil");
                                                        return 
                            $ManiTeilZeil;
                                                             } 
                            Zum weiteren Vorgehen:
                            Sollte ich jetzt das Zusammenbauen des Links und das schreiben der Dateinamen alles in der Funktion erledigen? Dann müßte jetzt der 2. Buchstabe extraiert werden und der Austausch eingeleitet werden.
                            In $ManiTeilZeil" ist doch jetzt das ganze Wort, z.B Aben&ccedi;a
                            Wie spreche ich den jetzt die Quellcodedarstellung des Sonderzeichens an, um daraus den 2. Buchstaben zu extraieren, um den Dateinamen ohne Sonderzeichen zu erhalten?
                            Also aus &ccedi; wird c

                            Wie sage ich das in PHP:
                            Suche in $ManiTeilZeil ein & und lösche es.
                            Gehe ein Zeichen noch vorn und lösche alles bis einschlißlich ;
                            Suche das nächste & und verfahre genauso.

                            Gruß
                            Estrela

                            Edit: Ich werde das einfach mal mit str_replace versuchen.
                            Zuletzt geändert von Estrela; 25.06.2008, 12:49.
                            Denk positiv.

                            Kommentar


                            • #15
                              Original geschrieben von Estrela

                              PHP-Code:
                              $ManiTeilZeil htmlentities ("$ManiTeilZeil"); 
                              Gesteinigt werde derjenige, der der Welt verkündete, es seien (sinnlose) Anführungszeichen um Variablen zu setzen. Das ist offensichtlich zu einer Plage mutiert.

                              @Estrela:
                              Das ist zwar nicht direkt ontopic, aber wieso würdest du hier Anführungszeichen um die Variable setzen?

                              Grüße
                              Zuletzt geändert von Griecherus; 25.06.2008, 16:40.
                              Nieder mit der Camel Case-Konvention

                              Kommentar

                              Lädt...
                              X