Datei-Codierung auslesen?!

**wahsaga** · 28.02.2006, 09:37

Re: Datei-Codierung auslesen?!

utf-8?
utf8decode()?

**sagg** · 28.02.2006, 10:06

Hab beides ausprobiert, bringt aber so gut wie keine Veränderung, dadurch wird es eher noch unleserlicher, da manche Umlaute verschwinden und 1-2 andere Buchstaben, die hinter dem Umlaut stehen, gleich mit weg sind.
Der Content-Type ändert an dem Text so gut wie nichts, ausser das ein ohnehin schon unleserlicher Umlaut ganz verschwindet, bzw. durch ein Fragezeichen ersetzt wird.

**Mahavishnu** · 28.02.2006, 11:12

Das Programm besitzt eben sein eigenes Datenformat und bezweifle mal, dass die Struktur des Formats irgendwo veröffentlicht ist.

Wenn sich zwischen dem Klartext wirklich nur ein paar nicht-darstellbare Zeichen befinden, würde ich mir eine Datei nochmal genauer in einem HEX-Editor anschauen. Wenn das Format sehr einfach gehalten ist und die Datenstrukturen zwischen dem Klartext nicht zu arg variieren, könntest du ja einen kleinen Parser schreiben, der die Daten zwischen dem Klartext herausfiltert und den Rest ordnungsgemäß speichert.

Ich kenne das Programm nicht, aber wenn es sich um ein kleineres, älteres System handelt, wäre vielleicht auch eine E-Mail an die Entwickler sinnvoll. Vielleicht kann man Dir dort ja weiterhelfen?

**sagg** · 28.02.2006, 12:23

Ich habe schon eine Anfrage geschrieben, nur ist bis jetzt noch keine Antwort eingegangen.

Einen Parser zu schreiben hab ich auch schon überlegt, nur woran soll ich erkennen ob es sich um ein ä, Ä, ü, Ü, ö, Ö oder ß handelt?
Diese Umlaute werden alle gleich dargestellt.
Der Rest wäre sonst kein Problem.

Mit einem HexEditor mal drüber zu gehen wäre eventuell eine Idee, mal ausprobieren was da raus kommt.

**Saskia** · 28.02.2006, 13:54

Einen Parser zu schreiben hab ich auch schon überlegt, nur woran soll ich erkennen, ob es sich um ein ä, Ä, ü, Ü, ö, Ö oder ß handelt?

Dafür benutzt du ja gerade den HEX-Editor. Die nicht-druckbaren Zeichen werden bei Dir im Texteditor alle gleich angezeigt. Im HEX-Editor wirst du jedoch mit Sicherheit herausfinden, dass sich dahinter unterschiedliche Zeichencodes verbergen.

Wichtig beim Schreiben des Parsers ist dann natürlich, die Datei binär Zeichen für Zeichen einzulesen und nicht als Textdatei!

Mfg

Datei-Codierung auslesen?!