Embeds aus Microsoft Dokumenten extrahieren

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Embeds aus Microsoft Dokumenten extrahieren

    Hallo beisammen!

    Habe ein Formular, mit dem Dokumente spezifierbar sind, die beim Absenden als BLOB in einer Oracle Datenbank gespeichert werden.

    So weit so gut.

    Problem ist, dass andere Objekte als Embed in diese Dokumente eingefügt sein könnten. Diese Embeds will ich aus den Dokumenten extrahieren und als eigenen BLOB in der DB speichern.

    Hat irgendjemand ne Idee?
    COM-Funktionen scheiden übrigens aus, PHP läuft auf nem Linux-Apachen.

    Wäre für Hilfe dankbar

    Grüße ead

  • #2
    Kommt drauf an was für Dokumente, OOXML Dateien (Office 2007) kannst du einfach entpacken und hast dann Bilder und Dokument getrennt ...
    Die Regeln | rtfm | register_globals | strings | SQL-Injections | [COLOR=silver][[/COLOR][COLOR=royalblue]–[/COLOR][COLOR=silver]][/COLOR]

    Kommentar


    • #3
      Original geschrieben von tontechniker
      Kommt drauf an was für Dokumente, OOXML Dateien (Office 2007) kannst du einfach entpacken und hast dann Bilder und Dokument getrennt ...


      danke für die schnelle antwort!

      die meisten fälle dürften pdf-, word- oder excel-dateien in word- oder pdf- dateien sein.

      hast du ein beispiel dafür wie dieses entpacken funktioniert?

      Kommentar


      • #4
        Die Office 2007 Dokumente sind einfache zip-Dateien, kann mir allerdings noch nicht ganz vorstellen warum dort PDF Dateien oder ähnliche drin gespeichert werden sollten ...
        Die Regeln | rtfm | register_globals | strings | SQL-Injections | [COLOR=silver][[/COLOR][COLOR=royalblue]–[/COLOR][COLOR=silver]][/COLOR]

        Kommentar


        • #5
          Schlumpf-User machen das eben so

          Bsp.: Word-Dokument mit Powerpoint-Embed (oracle_text.ppt)

          Screenshot (siehe Anhang) zeigt wie das doc auf dem bildschirm aussieht.

          Binär sieht das Word-Dokument so aus (Auszug):

          Ùbla bla bla hier das embed: EMBED Outlook.FileAttach  89;<õêãÕêj"’J OJQJUV^J OJQJ^JjOJQJU^JOJQJ^JmHsH <ùùùù÷7$8$H$<ý°‚. °ÆA!°‰"°‰#‰$n%°”Dd eèèð0² ð # ð Aÿð€2ð(ô[ÌsåÂiñt‘üî•BŒÿìD`!ðä(ô[ÌsåÂiñt‘üî•BŒw`Kàó æ ²þxÚcdàd``¶fg``dPdc ffä``ÒÜL ‹‡É›!Ìâ„‹12ýÿÿŸa)åÈ}Œ¡ƒAAB+0h€IZ (…@& 4øÿ€lb1Ì@ s~ ò@lÄõ ðwävcHÃ’ `ísxF5@CCÃj<æÿ§Œ4óêá \`4|F^øüG?@þÿÿÿþÿÿÿþÿÿÿDEFGHIþÿÿÿKLMNþÿÿÿPQRSTUVWXYZ[\]^_`abcdefþÿÿÿhþÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿþÿ ÿÿÿÿ1ðÀFOutlook-DateianlageOutlook.FileAttachOutlook.FileAttachô9²qoracle_text.pptoracle_text.ppt ORACLE~1.PPT.pptÙ&6¼(ºÇW’C½(ºÇì Àv ;!  K` ÿÿÿ¥A ƈ ( @AttachDesc ÿÿÿÿJAttachPresÿÿÿÿÿÿÿÿÿÿÿÿˆRichEditFlags ÿÿÿÿA AttachContentsÿÿÿÿ ÿÿÿÿ-þÿÿÿÿÿÿÿÿÿÿÿþþþþþþþþþþþþþ?þ!A Ff ( 


          Weiter unten steht dann noch der Inhalt des Powerpoint-Dokuments...

          Wie schaff ich es nun das Powerpoint zu extrahieren und als BLOB in der DB zu speichern?

          Gruß ead
          Angehängte Dateien

          Kommentar


          • #6
            Vielleicht mal ein wenig MS-Doku lesen! Du wirst wohl kaum jemand finden, der genau dein Problem schon einmal selbst implementiert hat!

            Kommentar


            • #7
              Vielleicht mal ein wenig MS-Doku lesen!
              Seit wann hat Microsoft das .doc/.xls Format dokumentiert? (Du könntest in den Sourcecode von Openoffice gehen und mal gucken wie die das gelöst haben)
              Die Regeln | rtfm | register_globals | strings | SQL-Injections | [COLOR=silver][[/COLOR][COLOR=royalblue]–[/COLOR][COLOR=silver]][/COLOR]

              Kommentar

              Lädt...
              X