Volltextsuche in Office Dokumente?!

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Volltextsuche in Office Dokumente?!

    Hallo!

    Kennt gemand eine Lösung (oder eine fertige Klasse die das kann) wie man mit PHP MS Office-Dokumente (beschränkt sich nur auf: *.doc, *.xls und nach Möglichkeit auch pdf) nach Schlagwörtern durchsuchen kann?

    Die Files sind auf dem Linux Server schon gespeichert, in einem eigenen Verzeichnis.

    Besten Dank im Voraus
    Thomas

  • #2
    öffne die dateien doch einfach mal im editor. der reine text sollte meines wissens in allen fällen sichtbar sein.
    INFO: Erst suchen, dann posten![color=red] | [/color]MANUAL(s): PHP | MySQL | HTML/JS/CSS[color=red] | [/color]NICE: GNOME Do | TESTS: Gästebuch[color=red] | [/color]IM: Jabber.org |


    Kommentar


    • #3
      nach weniger als 1min googeln folgender Link:
      http://www.widiker.de/php-skripte/suchmaschine...
      Vielleicht isses ja das was du suchst...

      Wo kämen wir hin, wenn jeder sagte: Wo kämen wir hin? und keiner ginge, um zu sehen, wohin wir kämen, wenn wir gingen?

      Kommentar


      • #4
        Dir muß klar sein, daß das Auslesen von MS-Dokumentformaten auf Linux immer nur eine Annäherung darstellen kann, weil die Formate selbst nicht öffentlich sind. Für PDFs und Excel-Sheets bin ich bei folgenden Lösungen gelandet:

        - Aus PDFs läßt sich der Text wunderbar mit XPDF rippen (Binaries für Windows und Linux, liest PDFs bis Version 1.5)

        - Excel-Dokumente rippt xlhtml ganz gut (Schon getestet mit sehr komplexen Spreadsheets). Erzeugt HTML-Output, den man dann mit strip_tags() und Konsorten säubert und in den Suchindex aufnimmt.

        Für diese Tools mußt Du aber Kommandozeilen-Zugriff auf deinen Webserver haben und die Sourcen compilieren können.
        Und: Die Tools bringens m.E. nur, wenn Du einen Suchindex hast, in den ihr Output aufgenommen wird. Die Programme bei jeder Suche laufenzulassen, bringts nicht.

        Ansonsten interessant:

        http://www.linuxdevcenter.com/pub/a/.../textonly.html

        Kommentar

        Lädt...
        X