assoziatives Array

**h3ll** · 25.09.2014, 20:01

Zitat von narutos Beitrag anzeigen

Wenn ich mit UTF-8 arbeite, könnte es dann passieren, dass es hier Unterschiede gibt? Also dass ich bei der Definition eines Strings mit Zeichen (ev. Sonderzeichen) arbeiten kann, die aber als Array-Schlüssel verboten sind?

Da PHP einen String wie ein Byte-Array behandelt, ist es vollkommen irrelevant welche Kodierung und welche Zeichen verwendet werden. Ausnahmen sind Strings, die Ganzzahlenwerte beinhalten. Diese werden in einen Integer konvertiert.

**narutos** · 25.09.2014, 21:11

php - How would you create a string of all UTF-8 characters? - Stack Overflow

PHP-Code:


function unichr($i) {     return iconv('UCS-4LE', 'UTF-8', pack('V', $i)); }  $codeunits = array(); for ($i = 0; $i<0xD800; $i++)     $codeunits[] = unichr($i); for ($i = 0xE000; $i<0xFFFF; $i++)     $codeunits[] = unichr($i); $all = implode($codeunits);

Jetzt wollte ich diesen Code verwenden, um die Zeichen als Schlüssel einem Array zu übergeben. Mein Testprogramm schaut folgendermaßen aus:

PHP-Code:


<?php
   error_reporting(-1);
   
   mb_internal_encoding('UTF-8');
   
   function unichr($i, $from)
   {
      $v = pack('V', $i);
      return iconv($from, 'UTF-8', $v);
   }

   // Schlüssel setzen:
   $codeunits = array();
   for($i = 0; $i < 0xD800; ++$i)
   {
      $c = unichr($i, 'UCS-4LE');
      $codeunits[$c] = $c;
   }
   for ($i = 0xE000; $i < 0xFFFF; ++$i)
   {
      $c = unichr($i, 'UCS-4LE');
      $codeunits[] = $c;
   }
   
   // Kontrolle:
   $i = 0;
   foreach($codeunits as $key => $value)
   {
      if(is_int($key))
      {
         if($key != $value)
         {
            die($i.': '.$key.', '.$value);
         }
      }
      elseif($key !== $value)
      {
         die($i.': '.$key.', '.$value);
      }
      ++$i;
   }
   echo 'OK';
?>

Allerdings liefert mir das nicht das erhoffte OK, sondern:

55296: 10, 

Jetzt weiß ich nicht. Liegt das nur an meinem Programm, oder gibt es doch Zeichen, die man nicht als Schlüssel verwenden darf?

**mermshaus** · 26.09.2014, 05:26

Ich habe jetzt nicht recherchiert, was unichr genau tut, aber hier…

PHP-Code:


   for ($i = 0xE000; $i < 0xFFFF; ++$i)
   {
      $c = unichr($i, 'UCS-4LE');
      $codeunits[] = $c;
   }

…weiß ich nicht, wieso dem nächsten automatisch vergebenen Index das $c entsprechen sollte? (Tut jedenfalls keins der 8191 Elemente in dieser Schleife.)

Könntest du das kurz erklären?

**narutos** · 26.09.2014, 09:19

Dumm von mir, hab das $c für den Schlüssel vergessen ...

Aber was das Programm macht, weiß ich auch nicht. Keine Ahnung, was da passiert.

Ich verstehe auch den folgenden Hinweis nicht:

(I avoided the surrogate range 0xD800–0xDFFF as they aren't valid to put in UTF-8 themselves; that would be “CESU-8”.)

Soll man für diesen Bereich mit CESU-8 statt mit UCS-4LE arbeiten?

PHP-Code:


   for($i = 0xD800; $i < 0xE000; ++$i)
   {
      $c = unichr($i, 'CESU-8');
      $codeunits[$c] = $c;
   }

Ist das damit gemeint? Das klappt aber nicht:

conversion from `CESU-8' to `UTF-8' is not allowed

Versuche ich es mit UCS-4LE, klappt es aber scheinbar.?.?

**mermshaus** · 26.09.2014, 13:25

In dem Bereich liegt dieses Zeugs:

- https://en.wikipedia.org/wiki/Univer...ers#Surrogates

(Edit: Und ich würde nicht drauf wetten, dass das die einzigen Codepoints bis U+FFFF sind, die „undefiniert“ sind. Siehe nächster Link.)

Allgemein:

- https://de.wikipedia.org/wiki/Liste_...odebl%C3%B6cke

Aber was das Programm macht, weiß ich auch nicht. Keine Ahnung, was da passiert.
[…]
Soll man für diesen Bereich mit CESU-8 statt mit UCS-4LE arbeiten?
[…]
Ist das damit gemeint? Das klappt aber nicht:
[…]
Versuche ich es mit UCS-4LE, klappt es aber scheinbar.?.?

Wenn du schon nicht weißt, was du programmieren willst: Wir wissen das noch viel weniger.

**narutos** · 26.09.2014, 15:35

Eigentlich will ich was ganz anderes programmieren

Aber dazu muss ich sichergehen, dass man wirklich jedes UTF-8-Zeichen auch als Array-Schlüssel verwenden darf.

Ich schau mir die Links jetzt mal an. Danke vorerst.

**mermshaus** · 26.09.2014, 16:33

Was verleitet dich denn zu der Annahme, dass das nicht der Fall sein könnte? Aus PHP-Sicht sind das, wie h3ll schon sagte, einfach Bytes.

Edit: ↓ Wobei der Code nur die ersten 65.535 oder so durchgeht. Sicher kannst du dir aber technisch gesehen ohnehin nicht sein, denn vielleicht kann PHP ein Zeichen weder als Key noch als Value verwenden und macht einfach eine "0" draus oder so. Key und Value wären dann noch immer gleich. Das jetzt aber nur mal ganz hypothetisch.

**narutos** · 26.09.2014, 16:34

OK, also diesen Unicode-Bereich [FONT=Verdana]D800 bis DFFF kann ich also scheinbar vergessen, ist wohl für UTF-8 vollkommen uninteressant.

Ich gehe einfach mal davon aus, dass diese Script, das ich von der fremden Seite kopiert habe, passt (auch wenn ichs nicht kapiere, was mir aber vorerst nicht wirklich wichtig ist). Dann bedeutet das wohl, dass man wirklich jedes UTF-8-Zeichen auch in einem Schlüssel verwenden kann.

Das Thema ist also erledigt. Danke.
[/FONT]

assoziatives Array