- Ad -
php-resource



Zurück   PHP-Scripte PHP-Tutorials PHP-Jobs und vieles mehr > Scripts > BRAINSTORMING PHP/SQL/HTML/JS/CSS
 

Login

 
eingeloggt bleiben
star Jetzt registrieren   star Passwort vergessen
 

 

 

 


BRAINSTORMING PHP/SQL/HTML/JS/CSS Ihr habt eine Idee, aber keinen genauen Ansatz? Diskutiert mit anderen Usern des Forums über eure Gedankengänge um evtl. hilfreiche Ideen zu bekommen!
Normale Fragen bitte weiterhin in die entsprechenden Foren!

Antwort
 
LinkBack Themen-Optionen Thema bewerten
  #1 (permalink)  
Alt 20-01-2012, 22:20
fritzje610
 Registrierter Benutzer
Links : Onlinestatus : fritzje610 ist offline
Registriert seit: Mar 2004
Ort: Nahe der schönen Loreley
Beiträge: 310
fritzje610 ist zur Zeit noch ein unbeschriebenes Blatt
Standard Suche durch alle Dateien

Hallo,

für ein kleines Projekt auf der Arbeit bräuchte ich mal ein paar Tips von euch.
Folgende Gegebenheiten. Als "Firmenlexikon" habe ich eine kleine Seite gestartet. In der Navigation kann man sich die gewünschten Inhalte aussuchen, die dann auf ein pdf-File verweisen, das dann zur Ansicht in einem iframe geladen wird. Neben den nötigen Feldern für den Dateiaufruf und dem gespeicherten Link zur Datei habe ich noch ein Feld Suchworte. Hier kann ich Suchworte definieren, auf die die Suche reagieren soll. All das funktioniert auch schon soweit zur vollsten Zufriedenheit. Nun kommt das eigentliche Problem.

Wie kann ich mit meiner Suchfunktion nicht nur die von mir definierten Suchworte auswerten, sondern auch innerhalb der Dateien nach den eingegebenen Suchwörtern suchen. Bei den Dateien handelt es sich ausschliesslich um pdf's, die aber auch mal 30MB oder größer sein können.

Meiner Vorstellung nach, müsste ich bei einer Suche dann jede Datei laden, durchsuchen, evtl. vorhandene Treffer speichern und dann mit der nächsten Datei weitermachen. Richtig !?!?

Wie würdet ihr das machen ?


Danke für eure Tips
__________________
Gruß

Michael

Mit Zitat antworten
  #2 (permalink)  
Alt 21-01-2012, 12:25
AmicaNoctis
  Moderatorin
Links : Onlinestatus : AmicaNoctis ist offline
Registriert seit: Jul 2009
Ort: Dresden
Beiträge: 5.491
Blog-Einträge: 9
AmicaNoctis sorgt für eine eindrucksvolle AtmosphäreAmicaNoctis sorgt für eine eindrucksvolle Atmosphäre
Standard

Hallo,

wenn du bei jeder Suche alle PDFs decodieren und durchsuchen willst, dauert das geschätzte 20 Minuten. Ich würde erstmal alle vorhandenen PDFs indizieren und wenn ein neues dazukommt oder sich ein bestehendes geändert hat, dieses neu indizieren. Die dabei gefundenen Stichwörter (alles außer Stoppwörtern) würde ich in eine DB packen und bei der eigentlichen Suche nur die DB abgrasen. Also praktisch genauso wie es eine Suchmaschine machen würde.

Gruß,

Amica
__________________
Hast du die Grundlagen zur Fehlersuche gelesen? Hast du Code-Tags benutzt?
Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
Super, danke!
Mit Zitat antworten
  #3 (permalink)  
Alt 21-01-2012, 16:04
fritzje610
 Registrierter Benutzer
Links : Onlinestatus : fritzje610 ist offline
Registriert seit: Mar 2004
Ort: Nahe der schönen Loreley
Beiträge: 310
fritzje610 ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Danke für die Antwort.

Das bringt mich aber zu der Frage, wie mache ich das mit dem inizieren ???
Stelle ich mir so vor, dass einmal die Suchwörter zusammengesellt werden und das Ergebnis dessen dann in der Datenbank mein jetztiges Suchwort ersetzt.

Richtig ?!?!
__________________
Gruß

Michael

Mit Zitat antworten
  #4 (permalink)  
Alt 22-01-2012, 00:36
AmicaNoctis
  Moderatorin
Links : Onlinestatus : AmicaNoctis ist offline
Registriert seit: Jul 2009
Ort: Dresden
Beiträge: 5.491
Blog-Einträge: 9
AmicaNoctis sorgt für eine eindrucksvolle AtmosphäreAmicaNoctis sorgt für eine eindrucksvolle Atmosphäre
Standard

So wie du das erklärst, versteh ich kein Wort. Was ersetzt was in der Datenbank? Was genau verstehst du nicht am Indizieren?
__________________
Hast du die Grundlagen zur Fehlersuche gelesen? Hast du Code-Tags benutzt?
Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
Super, danke!
Mit Zitat antworten
  #5 (permalink)  
Alt 22-01-2012, 11:59
h3ll
 Registrierter Benutzer
Links : Onlinestatus : h3ll ist gerade online
Registriert seit: Mar 2008
Beiträge: 2.226
h3ll befindet sich auf einem aufstrebenden Ast
Standard

Apache Lucene
Apache Tika
Mit Zitat antworten
  #6 (permalink)  
Alt 23-01-2012, 09:21
fritzje610
 Registrierter Benutzer
Links : Onlinestatus : fritzje610 ist offline
Registriert seit: Mar 2004
Ort: Nahe der schönen Loreley
Beiträge: 310
fritzje610 ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Momentan habe ich in meiner Datenbank eine Spalte Suchworte. In dieser habe ich für jeden Link zu einer Datei entsprechende Suchwörter abgelegt. Hiermit kann ich nach dem Dateinamen filtern. Funktioniert auch.

Die Frage hier zielt darauf, wie ich auch im INHALT der Dateien suchen kann.
Dazu müssen dieDateien mit dem Inhalt indiziert sein. Soweit habe ich das verstanden. Nur wie indiziere ich die Dateien???
Was wird bei dem indizieren gemacht??? Ich nehme an, Suchwörter für die jeweilige Datei erstellt/angegeben, wie auch immer. Diese müssen dann auch in der Datenbank gespeichert werden.

Gibt irgenwo eine Anleitung (möglichst in deutsch) dazu ?
__________________
Gruß

Michael

Mit Zitat antworten
  #7 (permalink)  
Alt 23-01-2012, 11:24
h3ll
 Registrierter Benutzer
Links : Onlinestatus : h3ll ist gerade online
Registriert seit: Mar 2008
Beiträge: 2.226
h3ll befindet sich auf einem aufstrebenden Ast
Standard

Ich hab die beiden Links nicht aus Spaß gepostet.
Mit Zitat antworten
  #8 (permalink)  
Alt 23-01-2012, 18:46
Benutzerbild von fireweasel fireweasel
 Registrierter Benutzer
Links : Onlinestatus : fireweasel ist offline
Registriert seit: Sep 2008
Ort: At home
Beiträge: 645
fireweasel wird schon bald berühmt werden
fireweasel eine Nachricht über AIM schicken fireweasel eine Nachricht über Yahoo! schicken
Standard

Zitat:
Zitat von fritzje610 Beitrag anzeigen
Die Frage hier zielt darauf, wie ich auch im INHALT der Dateien suchen kann.
Dazu müssen dieDateien mit dem Inhalt indiziert sein. Soweit habe ich das verstanden. Nur wie indiziere ich die Dateien???
Du sammelst in jeder Datei alle Wörter ein, nach denen man später suchen können soll. Für jedes dieser Wörter erstellst du eine "Liste", die alle Dateien, die das Wort enthalten, beherbergt. Diese Datenstruktur nennt man "inverted index". Einfache Beispiel-Source-Codes gibt es dafür jede Menge, aber PHP ist nicht dabei: Inverted index - Rosetta Code

Zitat:
Was wird bei dem indizieren gemacht??? Ich nehme an, Suchwörter für die jeweilige Datei erstellt/angegeben, wie auch immer. Diese müssen dann auch in der Datenbank gespeichert werden.
Schau in den Wikipedia-Artikel zum Search-Engine-Indexing ab dem Abschnitt "Inverted Indices". Da steht drin, wie das abläuft und was noch so alles zu beachten ist (Groß-Klein-Schreibung, Stemming, usw.).

Irgendwann wirst du dann sicher zu der Erkenntnis kommen, dass man diese Arbeit doch besser einer "fertigen Software" überlässt ...

Zitat:
Gibt irgenwo eine Anleitung (möglichst in deutsch) dazu ?
Wenn du ernsthaft das Ganze verstehen lernen möchtest, dann verbessere lieber dein Englisch.
__________________
PHP-Code:
class Brick implements Throwable {
    
// ... 

Mit Zitat antworten
  #9 (permalink)  
Alt 24-01-2012, 10:30
fritzje610
 Registrierter Benutzer
Links : Onlinestatus : fritzje610 ist offline
Registriert seit: Mar 2004
Ort: Nahe der schönen Loreley
Beiträge: 310
fritzje610 ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Hhmmm, ohne da jetzt lange die genannten Artikel zu lesen drängt sich mir immer mehr der Eindruck auf, dass es sinniger ist, das Suchen fertiger Software zu überlassen und diese in das Projekt zu integrieren.

Was könnt ihr da empfehlen ???
(Mal von den zwei bereits genannten abgesehen)

Danke ! ! ! !
__________________
Gruß

Michael

Mit Zitat antworten
  #10 (permalink)  
Alt 27-01-2012, 11:40
Benutzerbild von fireweasel fireweasel
 Registrierter Benutzer
Links : Onlinestatus : fireweasel ist offline
Registriert seit: Sep 2008
Ort: At home
Beiträge: 645
fireweasel wird schon bald berühmt werden
fireweasel eine Nachricht über AIM schicken fireweasel eine Nachricht über Yahoo! schicken
Standard

Zitat:
Zitat von fritzje610 Beitrag anzeigen
Hhmmm, ohne da jetzt lange die genannten Artikel zu lesen drängt sich mir immer mehr der Eindruck auf, dass es sinniger ist, das Suchen fertiger Software zu überlassen und diese in das Projekt zu integrieren.
Ja, das war genau das, was dir mein geschätzter Vorposter zu sagen versucht hat.

Zitat:
Was könnt ihr da empfehlen ???
Empfehlen wäre übertrieben, aber anschauenswert ist
Managing Gigabytes for Java

Zitat:
(Mal von den zwei bereits genannten abgesehen)
Was gefällt dir an denen nicht?
__________________
PHP-Code:
class Brick implements Throwable {
    
// ... 

Mit Zitat antworten
Antwort

Lesezeichen


Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)
 

Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
Datenbank durch PHP und .sql Dateien erstellen Fido77 PHP Developer Forum 1 14-03-2006 12:47
alle dateien eines verzeichnises durchsuchen ? burzum PHP Developer Forum 5 23-05-2004 21:53
Sicherheitslücke durch Audio-Dateien in Windows XP MoRtAlAn IT-Security 0 19-12-2002 14:28
alle dateien auf einmal löschen nullacht16x PHP Developer Forum 64 31-07-2002 20:04
Alle Dateien in Verzeichnis + Unterverzeichnis ausgeben ?! newhx PHP Developer Forum 6 29-03-2002 01:56

Themen-Optionen
Thema bewerten
Thema bewerten:

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are an


PHP News

HeidiSQL ist in der Version 7.0 erschienen.
HeidiSQL ist in der Version 7.0 erschienen.Über 450 Änderungen wurden zur Vorgängerversion 6.0 vorgenommen. Zu den wichtigsten Erneuerungen dürfte der einfache Support des Microsoft SQL Servers sein.

15.02.2012 | Berni

HTML5 verwenden oder nicht? html5please.us kann helfen
HTML5 verwenden oder nicht? html5please.us kann helfenWelche HTML5-Funktionen können problemlos genutzt werden, welche besser nicht. html5please zeigt es dir.

11.02.2012 | Berni

 

Aktuelle PHP Scripte

APICMS - CMS ohne Templates, mit REST API ansehen APICMS - CMS ohne Templates, mit REST API

APICMS ist ein CMS das für die Integration des Inhalts in eine Website nur eine RESTful API für den Webdesigner zur Verfügung stellt. Sie können ihre Homepage völlig unabhängig vom CMS ganz normal mit HTML/CSS programmieren und binden danach den Inhalt mi

22.02.2012 wolveware | Kategorie: PHP/ CMS
Joomla Smooth Gallery

Joomla photo gallery is integrated with mac doc and smooth gallery effect. Giving your image gallery a classy look with slideshow effect.With Joomla Photo Gallery, you can emulate a set of photos in very attractive and customizable galleries.

22.02.2012 apptha | Kategorie: PHP/ Bilder
Wronnay NewsSystem

Ein NewsSystem mit Kommentar-Funktion und Admin-Bereich.

22.02.2012 Wronnay | Kategorie: PHP/ News
 Alle PHP Scripte anzeigen

Alle Zeitangaben in WEZ +2. Es ist jetzt 01:21 Uhr.