php-resource



Zurück   PHP-Scripte PHP-Tutorials PHP-Jobs und vieles mehr > Entwicklung > PHP Developer Forum
 

Login

 
eingeloggt bleiben
star Jetzt registrieren   star Passwort vergessen
 

 

 


PHP Developer Forum Hier habt ihr die Möglichkeit, eure Skriptprobleme mit anderen Anwendern zu diskutieren. Seid so fair und beantwortet auch Fragen von anderen Anwendern. Dieses Forum ist sowohl für ANFÄNGER als auch für PHP-Profis! Fragen zu Laravel, YII oder anderen PHP-Frameworks.

Antwort
 
LinkBack Themen-Optionen Bewertung: Bewertung: 1 Stimmen, 5,00 durchschnittlich.
  #1 (permalink)  
Alt 16-04-2008, 09:24
kabularasa
 Newbie
Links : Onlinestatus : kabularasa ist offline
Registriert seit: Apr 2008
Ort: Vienna
Beiträge: 5
kabularasa ist zur Zeit noch ein unbeschriebenes Blatt
Standard Nach Upload von Dokument Wörter zählen (.doc, .txt, .pdf, .odt, .html)

Hallo,

ich stehe im Moment vor der Aufgabe den Usern einer Website die möglichkeit zu bieten ein Dokument anzugeben (upzuloaden) und anschliessend die Anzahl der Wörter des Dokuments zu sehen.

Es soll sich hierbei um die Dateiformate .doc, .txt, .pdf, .odt, sowie .htm(l) handeln.

Als ersten Ansatz und direkten Angriff dachte ich mit einer simplen Zählung der leerzeichen ans Ziel zu kommen, jedoch sind die Ergebnisse nach der Berechnung alles nur nicht Korrekt. Sofern sich das Dokument wie .pdf überhaupt öffnen lässt.

Mittlerweile denke ich das der Weg folgender wäre (und hier bin ich mir nicht sicher, weder in der Theorie, noch in der Ausführung):
Dokument Uploaden --> Je nach Dateityp parsen --> Konvertieren nach text --> text "schrumpfen" (alle leerzeichen falls mehrere hintereinander folgen entfernen) --> endlich die Zählung (spaces od. wörter falls das auch gleich geht).

Kennt jemand eine "schlüsselfertige Lösung" für das Problem, bzw hat sonst eine Idee die mich dem Ziel näher bringen könnte.
Durchfaste seit ein paar Tagen alle mir bekannten scriptresourcen und ähnliches, aber entweder bin ich schon betriebsblind oder bewege mich überhaupt in die falschen Richtung.

Danke & LG Rob
Mit Zitat antworten
  #2 (permalink)  
Alt 16-04-2008, 09:27
unset
  Moderator
Links : Onlinestatus : unset ist offline
Registriert seit: Jan 2007
Ort: Düsseldorf
Beiträge: 3.782
unset befindet sich auf einem aufstrebenden Ast
Standard

http://de.php.net/manual/de/function.str-word-count.php
Mit Zitat antworten
  #3 (permalink)  
Alt 16-04-2008, 09:44
kabularasa
 Newbie
Links : Onlinestatus : kabularasa ist offline
Registriert seit: Apr 2008
Ort: Vienna
Beiträge: 5
kabularasa ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Super, damit entfällt auf jeden Fall schonmal der Schritt des Leerzeichen-entfernens!

Bleibt mir noch folgendes Rätsel offen:

1. Kann PHP jedes der obig genannten Dateiformate nach einem Upload "öffnen" und mit der von usenet genannten Möglichkeit die Wörter zählen? Bei html, rtf, doc und pdf muss ja zunächst doch ein ganzer haufen nicht "Textrelevantes" zeugs entfernt werden um nur geschrieben Text zählen zu können oder?

Sry auch hier nochmal für den Cross-Post im Script-gesuche, dachte es ist kein Problem hier nach Hilfen bez. der Entwicklung und im Script-Gesuche nach einer schon vorhanden Lösung (falls es diese gibt) zu fragen.

Danke & LG Rob
Mit Zitat antworten
  #4 (permalink)  
Alt 16-04-2008, 09:48
unset
  Moderator
Links : Onlinestatus : unset ist offline
Registriert seit: Jan 2007
Ort: Düsseldorf
Beiträge: 3.782
unset befindet sich auf einem aufstrebenden Ast
Standard

PDFs kann PHP mit der PDFlib lesen, such halt in der Dokumentation nach PDF. Und auch für allen anderen Krempel gibt es Script - AFAIK auch in den PEAR-Repos.

Such doch einfach mal ...
Mit Zitat antworten
  #5 (permalink)  
Alt 16-04-2008, 09:52
lennart
 PHP Junior
Links : Onlinestatus : lennart ist offline
Registriert seit: May 2007
Ort: Hamburg
Beiträge: 565
lennart ist zur Zeit noch ein unbeschriebenes Blatt
Standard

OffTopic:
Man könnte auch eine X Session starten in der man mit OOo die Datei öffnet. Dann Screenshots davon machen, die alle in ein Bild mergen, die nicht relevanten Teile mit ImageMagick herausschneiden und daraus eine Ghostscript Datei machen. Die kann man dann bestimmt durch eine OCR Software jagen.


Oder den Vorschlag von unset übernehmen, der is auch nicht schlecht.
Mit Zitat antworten
  #6 (permalink)  
Alt 16-04-2008, 10:04
kabularasa
 Newbie
Links : Onlinestatus : kabularasa ist offline
Registriert seit: Apr 2008
Ort: Vienna
Beiträge: 5
kabularasa ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Danke für die Antworten.. Dann werd ich mir mal die Sachen zusammensuchen...

LG Rob
Mit Zitat antworten
  #7 (permalink)  
Alt 16-04-2008, 10:09
H2O
 PHP Junior
Links : Onlinestatus : H2O ist offline
Registriert seit: Jul 2007
Beiträge: 937
H2O ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Sinn macht das Ganze eigentlich nur bei reinen Text-Dateien, auch str_word_count()funktioniert wahrscheinlich nur dort. Schon bei html wird's schwierig, sind jetzt HTML-Tags Wörter oder nicht, ist «hallo<br>kabularasa» ein Wort, oder zwei oder drei (für den guten alten vi-Editor sind es 5)? Bei den übrigen Typen müstest das genaue Format, kennen, um den reinen Text extrahieren zu können. pdf- und odt-Formate sind ja bekannt, der Parser dürfte aber trotzdem recht aufwändig werden. Und die entsprechenden Daten von MS dürftest nur mit einem COM-Objekt erhalten.
__________________
Gruss
H2O
Mit Zitat antworten
  #8 (permalink)  
Alt 16-04-2008, 10:33
pekka
 PHP Master
Links : Onlinestatus : pekka ist offline
Registriert seit: Jun 2001
Ort: Köln
Beiträge: 6.608
pekka befindet sich auf einem aufstrebenden Ast
Standard

Also wenn es sich um ein großes Projekt handelt, und die exakte Wörterzählung sehr, sehr wichtig ist, würde ich die Wortzählung von OpenOffice vornehmen lassen, notfalls auf einem eigenen Server. (Kenne mich mit OpenOffice-Automatisierung aber nicht aus, weiß nicht ob das von PHP aus problemlos geht.) Bei der Parserei hätte ich Angst vor Fehlern.

Ansonsten: Word-Dokumente rippen kann Antiword.
Mit Zitat antworten
Antwort

Lesezeichen


Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)
 

Themen-Optionen
Thema bewerten
Thema bewerten:

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are an


PHP News

ebiz-trader 7.5.0 mit PHP7 Unterstützung veröffentlicht
ebiz-trader 7.5.0 mit PHP7 Unterstützung veröffentlichtDie bekannte Marktplatzsoftware ebiz-trader ist in der Version 7.5.0 veröffentlicht worden.

28.05.2018 | Berni

Wissensbestand in Unternehmen
Wissensbestand in UnternehmenLebenslanges Lernen und Weiterbilden sichert Wissensbestand in Unternehmen

25.05.2018 | Berni


 

Aktuelle PHP Scripte

PHP Server Monitor

PHP Server Monitor ist ein Skript, das prüft, ob Ihre Websites und Server betriebsbereit sind.

11.09.2018 Berni | Kategorie: PHP/ Security
PHP WEB STATISTIK ansehen PHP WEB STATISTIK

Die PHP Web Statistik bietet Ihnen ein einfach zu konfigurierendes Script zur Aufzeichnung und grafischen und textuellen Auswertung der Besuchern Ihrer Webseite. Folgende zeitlichen Module sind verfügbar: Jahr, Monat, Tag, Wochentag, Stunde Folgende son

28.08.2018 phpwebstat | Kategorie: PHP/ Counter
Affilinator - Affilinet XML Produktlisten Skript

Die Affilinator Affilinet XML Edition ist ein vollautomatisches Skript zum einlesen und darstellen der Affili.net (Partnerprogramm Netzwerk) Produktlisten und Produktdaten. Im Grunde gibt der Webmaster seine Affilinet PartnerID ein und hat dann unmittelb

27.08.2018 freefrank@ | Kategorie: PHP/ Partnerprogramme
 Alle PHP Scripte anzeigen

Alle Zeitangaben in WEZ +2. Es ist jetzt 02:38 Uhr.