php-resource



Zurück   PHP-Scripte PHP-Tutorials PHP-Jobs und vieles mehr > Scripts > BRAINSTORMING PHP/SQL/HTML/JS/CSS
 

Login

 
eingeloggt bleiben
star Jetzt registrieren   star Passwort vergessen
 

 

 


BRAINSTORMING PHP/SQL/HTML/JS/CSS Ihr habt eine Idee, aber keinen genauen Ansatz? Diskutiert mit anderen Usern des Forums über eure Gedankengänge um evtl. hilfreiche Ideen zu bekommen!
Normale Fragen bitte weiterhin in die entsprechenden Foren!

Antwort
 
LinkBack Themen-Optionen Thema bewerten
  #1 (permalink)  
Alt 20-01-2012, 21:20
fritzje610
 Registrierter Benutzer
Links : Onlinestatus : fritzje610 ist offline
Registriert seit: Mar 2004
Ort: Nahe der schönen Loreley
Beiträge: 318
fritzje610 ist zur Zeit noch ein unbeschriebenes Blatt
Standard Suche durch alle Dateien

Hallo,

für ein kleines Projekt auf der Arbeit bräuchte ich mal ein paar Tips von euch.
Folgende Gegebenheiten. Als "Firmenlexikon" habe ich eine kleine Seite gestartet. In der Navigation kann man sich die gewünschten Inhalte aussuchen, die dann auf ein pdf-File verweisen, das dann zur Ansicht in einem iframe geladen wird. Neben den nötigen Feldern für den Dateiaufruf und dem gespeicherten Link zur Datei habe ich noch ein Feld Suchworte. Hier kann ich Suchworte definieren, auf die die Suche reagieren soll. All das funktioniert auch schon soweit zur vollsten Zufriedenheit. Nun kommt das eigentliche Problem.

Wie kann ich mit meiner Suchfunktion nicht nur die von mir definierten Suchworte auswerten, sondern auch innerhalb der Dateien nach den eingegebenen Suchwörtern suchen. Bei den Dateien handelt es sich ausschliesslich um pdf's, die aber auch mal 30MB oder größer sein können.

Meiner Vorstellung nach, müsste ich bei einer Suche dann jede Datei laden, durchsuchen, evtl. vorhandene Treffer speichern und dann mit der nächsten Datei weitermachen. Richtig !?!?

Wie würdet ihr das machen ?


Danke für eure Tips
__________________
Gruß

Michael

Mit Zitat antworten
  #2 (permalink)  
Alt 21-01-2012, 11:25
AmicaNoctis
  Moderatorin
Links : Onlinestatus : AmicaNoctis ist offline
Registriert seit: Jul 2009
Beiträge: 5.709
Blog-Einträge: 9
AmicaNoctis sorgt für eine eindrucksvolle AtmosphäreAmicaNoctis sorgt für eine eindrucksvolle Atmosphäre
Standard

Hallo,

wenn du bei jeder Suche alle PDFs decodieren und durchsuchen willst, dauert das geschätzte 20 Minuten. Ich würde erstmal alle vorhandenen PDFs indizieren und wenn ein neues dazukommt oder sich ein bestehendes geändert hat, dieses neu indizieren. Die dabei gefundenen Stichwörter (alles außer Stoppwörtern) würde ich in eine DB packen und bei der eigentlichen Suche nur die DB abgrasen. Also praktisch genauso wie es eine Suchmaschine machen würde.

Gruß,

Amica
__________________
Hast du die Grundlagen zur Fehlersuche gelesen? Hast du Code-Tags benutzt?
Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
Super, danke!
Mit Zitat antworten
  #3 (permalink)  
Alt 21-01-2012, 15:04
fritzje610
 Registrierter Benutzer
Links : Onlinestatus : fritzje610 ist offline
Registriert seit: Mar 2004
Ort: Nahe der schönen Loreley
Beiträge: 318
fritzje610 ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Danke für die Antwort.

Das bringt mich aber zu der Frage, wie mache ich das mit dem inizieren ???
Stelle ich mir so vor, dass einmal die Suchwörter zusammengesellt werden und das Ergebnis dessen dann in der Datenbank mein jetztiges Suchwort ersetzt.

Richtig ?!?!
__________________
Gruß

Michael

Mit Zitat antworten
  #4 (permalink)  
Alt 21-01-2012, 23:36
AmicaNoctis
  Moderatorin
Links : Onlinestatus : AmicaNoctis ist offline
Registriert seit: Jul 2009
Beiträge: 5.709
Blog-Einträge: 9
AmicaNoctis sorgt für eine eindrucksvolle AtmosphäreAmicaNoctis sorgt für eine eindrucksvolle Atmosphäre
Standard

So wie du das erklärst, versteh ich kein Wort. Was ersetzt was in der Datenbank? Was genau verstehst du nicht am Indizieren?
__________________
Hast du die Grundlagen zur Fehlersuche gelesen? Hast du Code-Tags benutzt?
Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
Super, danke!
Mit Zitat antworten
  #5 (permalink)  
Alt 22-01-2012, 10:59
h3ll
 Registrierter Benutzer
Links : Onlinestatus : h3ll ist offline
Registriert seit: Mar 2008
Beiträge: 3.578
h3ll befindet sich auf einem aufstrebenden Ast
Standard

Apache Lucene
Apache Tika
Mit Zitat antworten
  #6 (permalink)  
Alt 23-01-2012, 08:21
fritzje610
 Registrierter Benutzer
Links : Onlinestatus : fritzje610 ist offline
Registriert seit: Mar 2004
Ort: Nahe der schönen Loreley
Beiträge: 318
fritzje610 ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Momentan habe ich in meiner Datenbank eine Spalte Suchworte. In dieser habe ich für jeden Link zu einer Datei entsprechende Suchwörter abgelegt. Hiermit kann ich nach dem Dateinamen filtern. Funktioniert auch.

Die Frage hier zielt darauf, wie ich auch im INHALT der Dateien suchen kann.
Dazu müssen dieDateien mit dem Inhalt indiziert sein. Soweit habe ich das verstanden. Nur wie indiziere ich die Dateien???
Was wird bei dem indizieren gemacht??? Ich nehme an, Suchwörter für die jeweilige Datei erstellt/angegeben, wie auch immer. Diese müssen dann auch in der Datenbank gespeichert werden.

Gibt irgenwo eine Anleitung (möglichst in deutsch) dazu ?
__________________
Gruß

Michael

Mit Zitat antworten
  #7 (permalink)  
Alt 23-01-2012, 10:24
h3ll
 Registrierter Benutzer
Links : Onlinestatus : h3ll ist offline
Registriert seit: Mar 2008
Beiträge: 3.578
h3ll befindet sich auf einem aufstrebenden Ast
Standard

Ich hab die beiden Links nicht aus Spaß gepostet.
Mit Zitat antworten
  #8 (permalink)  
Alt 23-01-2012, 17:46
Benutzerbild von fireweasel fireweasel
 Registrierter Benutzer
Links : Onlinestatus : fireweasel ist offline
Registriert seit: Sep 2008
Ort: At home
Beiträge: 851
fireweasel wird schon bald berühmt werdenfireweasel wird schon bald berühmt werden
fireweasel eine Nachricht über AIM schicken fireweasel eine Nachricht über Yahoo! schicken
Standard

Zitat:
Zitat von fritzje610 Beitrag anzeigen
Die Frage hier zielt darauf, wie ich auch im INHALT der Dateien suchen kann.
Dazu müssen dieDateien mit dem Inhalt indiziert sein. Soweit habe ich das verstanden. Nur wie indiziere ich die Dateien???
Du sammelst in jeder Datei alle Wörter ein, nach denen man später suchen können soll. Für jedes dieser Wörter erstellst du eine "Liste", die alle Dateien, die das Wort enthalten, beherbergt. Diese Datenstruktur nennt man "inverted index". Einfache Beispiel-Source-Codes gibt es dafür jede Menge, aber PHP ist nicht dabei: Inverted index - Rosetta Code

Zitat:
Was wird bei dem indizieren gemacht??? Ich nehme an, Suchwörter für die jeweilige Datei erstellt/angegeben, wie auch immer. Diese müssen dann auch in der Datenbank gespeichert werden.
Schau in den Wikipedia-Artikel zum Search-Engine-Indexing ab dem Abschnitt "Inverted Indices". Da steht drin, wie das abläuft und was noch so alles zu beachten ist (Groß-Klein-Schreibung, Stemming, usw.).

Irgendwann wirst du dann sicher zu der Erkenntnis kommen, dass man diese Arbeit doch besser einer "fertigen Software" überlässt ...

Zitat:
Gibt irgenwo eine Anleitung (möglichst in deutsch) dazu ?
Wenn du ernsthaft das Ganze verstehen lernen möchtest, dann verbessere lieber dein Englisch.
Mit Zitat antworten
  #9 (permalink)  
Alt 24-01-2012, 09:30
fritzje610
 Registrierter Benutzer
Links : Onlinestatus : fritzje610 ist offline
Registriert seit: Mar 2004
Ort: Nahe der schönen Loreley
Beiträge: 318
fritzje610 ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Hhmmm, ohne da jetzt lange die genannten Artikel zu lesen drängt sich mir immer mehr der Eindruck auf, dass es sinniger ist, das Suchen fertiger Software zu überlassen und diese in das Projekt zu integrieren.

Was könnt ihr da empfehlen ???
(Mal von den zwei bereits genannten abgesehen)

Danke ! ! ! !
__________________
Gruß

Michael

Mit Zitat antworten
  #10 (permalink)  
Alt 27-01-2012, 10:40
Benutzerbild von fireweasel fireweasel
 Registrierter Benutzer
Links : Onlinestatus : fireweasel ist offline
Registriert seit: Sep 2008
Ort: At home
Beiträge: 851
fireweasel wird schon bald berühmt werdenfireweasel wird schon bald berühmt werden
fireweasel eine Nachricht über AIM schicken fireweasel eine Nachricht über Yahoo! schicken
Standard

Zitat:
Zitat von fritzje610 Beitrag anzeigen
Hhmmm, ohne da jetzt lange die genannten Artikel zu lesen drängt sich mir immer mehr der Eindruck auf, dass es sinniger ist, das Suchen fertiger Software zu überlassen und diese in das Projekt zu integrieren.
Ja, das war genau das, was dir mein geschätzter Vorposter zu sagen versucht hat.

Zitat:
Was könnt ihr da empfehlen ???
Empfehlen wäre übertrieben, aber anschauenswert ist
Managing Gigabytes for Java

Zitat:
(Mal von den zwei bereits genannten abgesehen)
Was gefällt dir an denen nicht?
Mit Zitat antworten
Antwort

Lesezeichen


Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)
 

Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
Datenbank durch PHP und .sql Dateien erstellen Fido77 PHP Developer Forum 1 14-03-2006 11:47
alle dateien eines verzeichnises durchsuchen ? burzum PHP Developer Forum 5 23-05-2004 20:53
Sicherheitslücke durch Audio-Dateien in Windows XP MoRtAlAn IT-Security 0 19-12-2002 13:28
alle dateien auf einmal löschen nullacht16x PHP Developer Forum 64 31-07-2002 19:04
Alle Dateien in Verzeichnis + Unterverzeichnis ausgeben ?! newhx PHP Developer Forum 6 29-03-2002 00:56

Themen-Optionen
Thema bewerten
Thema bewerten:

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are an


PHP News

ebiz-trader 7.5.0 mit PHP7 Unterstützung veröffentlicht
ebiz-trader 7.5.0 mit PHP7 Unterstützung veröffentlichtDie bekannte Marktplatzsoftware ebiz-trader ist in der Version 7.5.0 veröffentlicht worden.

28.05.2018 | Berni

Wissensbestand in Unternehmen
Wissensbestand in UnternehmenLebenslanges Lernen und Weiterbilden sichert Wissensbestand in Unternehmen

25.05.2018 | Berni


 

Aktuelle PHP Scripte

PHP Server Monitor

PHP Server Monitor ist ein Skript, das prüft, ob Ihre Websites und Server betriebsbereit sind.

11.09.2018 Berni | Kategorie: PHP/ Security
PHP WEB STATISTIK ansehen PHP WEB STATISTIK

Die PHP Web Statistik bietet Ihnen ein einfach zu konfigurierendes Script zur Aufzeichnung und grafischen und textuellen Auswertung der Besuchern Ihrer Webseite. Folgende zeitlichen Module sind verfügbar: Jahr, Monat, Tag, Wochentag, Stunde Folgende son

28.08.2018 phpwebstat | Kategorie: PHP/ Counter
Affilinator - Affilinet XML Produktlisten Skript

Die Affilinator Affilinet XML Edition ist ein vollautomatisches Skript zum einlesen und darstellen der Affili.net (Partnerprogramm Netzwerk) Produktlisten und Produktdaten. Im Grunde gibt der Webmaster seine Affilinet PartnerID ein und hat dann unmittelb

27.08.2018 freefrank@ | Kategorie: PHP/ Partnerprogramme
 Alle PHP Scripte anzeigen

Alle Zeitangaben in WEZ +2. Es ist jetzt 10:53 Uhr.