Datei-Codierung auslesen?!

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Datei-Codierung auslesen?!

    Tag zusammen,

    ich sitzte gerade mal wieder vor einem tollen Problem.
    Und zwar muss ich eine auf Textdateien basierte Adress-Datenbank (des Programms ToBit/David InfoCenter (falls das jemandem was sagt)) auslesen.

    Soweit kein Problem, nur sind die Dateien irgendwie codiert, sodass ich viele, viele viereckige Kästchen zwischen dem Klartext angezeigt bekomme, wenn ich die Dateien öffne.
    Umlaute werden ebenfalls durch so ein Kästechen ersetzt.

    Hat jemand eine Idee, wie ich das "decodieren" kann, oder wie man da am dümmsten vorgeht?


    Danke schonmal.
    mfg - sagg

  • #2
    Re: Datei-Codierung auslesen?!

    utf-8?
    utf8decode()?
    I don't believe in rebirth. Actually, I never did in my whole lives.

    Kommentar


    • #3
      Hab beides ausprobiert, bringt aber so gut wie keine Veränderung, dadurch wird es eher noch unleserlicher, da manche Umlaute verschwinden und 1-2 andere Buchstaben, die hinter dem Umlaut stehen, gleich mit weg sind.
      Der Content-Type ändert an dem Text so gut wie nichts, ausser das ein ohnehin schon unleserlicher Umlaut ganz verschwindet, bzw. durch ein Fragezeichen ersetzt wird.
      mfg - sagg

      Kommentar


      • #4
        Das Programm besitzt eben sein eigenes Datenformat und bezweifle mal, dass die Struktur des Formats irgendwo veröffentlicht ist.

        Wenn sich zwischen dem Klartext wirklich nur ein paar nicht-darstellbare Zeichen befinden, würde ich mir eine Datei nochmal genauer in einem HEX-Editor anschauen. Wenn das Format sehr einfach gehalten ist und die Datenstrukturen zwischen dem Klartext nicht zu arg variieren, könntest du ja einen kleinen Parser schreiben, der die Daten zwischen dem Klartext herausfiltert und den Rest ordnungsgemäß speichert.

        Ich kenne das Programm nicht, aber wenn es sich um ein kleineres, älteres System handelt, wäre vielleicht auch eine E-Mail an die Entwickler sinnvoll. Vielleicht kann man Dir dort ja weiterhelfen?

        Kommentar


        • #5
          Ich habe schon eine Anfrage geschrieben, nur ist bis jetzt noch keine Antwort eingegangen.

          Einen Parser zu schreiben hab ich auch schon überlegt, nur woran soll ich erkennen ob es sich um ein ä, Ä, ü, Ü, ö, Ö oder ß handelt?
          Diese Umlaute werden alle gleich dargestellt.
          Der Rest wäre sonst kein Problem.

          Mit einem HexEditor mal drüber zu gehen wäre eventuell eine Idee, mal ausprobieren was da raus kommt.
          mfg - sagg

          Kommentar


          • #6
            Einen Parser zu schreiben hab ich auch schon überlegt, nur woran soll ich erkennen, ob es sich um ein ä, Ä, ü, Ü, ö, Ö oder ß handelt?
            Dafür benutzt du ja gerade den HEX-Editor. Die nicht-druckbaren Zeichen werden bei Dir im Texteditor alle gleich angezeigt. Im HEX-Editor wirst du jedoch mit Sicherheit herausfinden, dass sich dahinter unterschiedliche Zeichencodes verbergen.

            Wichtig beim Schreiben des Parsers ist dann natürlich, die Datei binär Zeichen für Zeichen einzulesen und nicht als Textdatei!

            Mfg

            Kommentar

            Lädt...
            X