php-resource



Zurück   PHP-Scripte PHP-Tutorials PHP-Jobs und vieles mehr > Entwicklung > PHP Developer Forum
 

Login

 
eingeloggt bleiben
star Jetzt registrieren   star Passwort vergessen
 

 

 


PHP Developer Forum Hier habt ihr die Möglichkeit, eure Skriptprobleme mit anderen Anwendern zu diskutieren. Seid so fair und beantwortet auch Fragen von anderen Anwendern. Dieses Forum ist sowohl für ANFÄNGER als auch für PHP-Profis! Fragen zu Laravel, YII oder anderen PHP-Frameworks.

Antwort
 
LinkBack Themen-Optionen Thema bewerten
  #1 (permalink)  
Alt 08-09-2007, 21:35
squirrelcgn
 Registrierter Benutzer
Links : Onlinestatus : squirrelcgn ist offline
Registriert seit: Sep 2005
Ort: koeln.nrw.de
Beiträge: 125
squirrelcgn ist zur Zeit noch ein unbeschriebenes Blatt
Standard Suche bestimmte RegExp für Parser

Hallo zusammen,

mein Parser nimmt langsam Gestalt an. Allerdings muss ich jetzt ordentlich nachbessern, da viele Datensätze (v.a. aus älteren Jahrzehnten) nicht so formatiert sind, wie ich gedacht hatte.

Ich formuliere jetzt mal "umgangssprachlich" den Ausdruck, den ich benötige. Dabei soll __EGAL__ bedeuten, dass dieser Abschnitt komplett variabel sein darf (also entweder irgendeinen Inhalt oder keinen Inhalt hat). __NUTZDATEN__ ist der Part den ich extrahieren möchte.

Code:
<div__EGAL__class="__EGAL__section-__EGAL__"__EGAL__>__NUTZDATEN__</div>
Und von diesen Elementen können mehrere im Dokument enthalten sein. Wäre super, wenn mir jemand (vllt. via http://regexp-evaluator.de/evaluator/) zeigen kann, wie ich dies bewerkstelligen kann.

Vielen Dank und Grüße,
Chris

P.S. Hier noch ein Beispiel-File:

Code:
<div class="head1A section-title" id="id2591895">Abstract</div>
<div class="head1A section-title" id="reference-sec">Selected References</div>
<div class="head1 section-title" style="text-transform: none;" id="id2679636">References</div>
Mit Zitat antworten
  #2 (permalink)  
Alt 08-09-2007, 22:22
TobiaZ
  Moderator
Links : Onlinestatus : TobiaZ ist offline
Registriert seit: Jan 2001
Ort: MUC und MGL, Germany
Beiträge: 34.421
Blog-Einträge: 1
TobiaZ befindet sich auf einem aufstrebenden Ast
Standard

Tzz, du lieferst nicht mal nen Versuch? Projekthilfe, oder nachbessern, bitte.

Hint: du erzählst hier was von "deinem Parser" und bist nicht in der Lage __EGAL__ durch .* zu ersetzen. Das kann man eigentlich als Regex-Grundlagen bezeichnen!
__________________
ERST LESEN: Unsere Regeln. | Ich hab schon Pferde kotzen sehn!

READ THIS: Strings richtig trennen/verbinden | JOINs, das leidige Thema | Wegwerf E-Mail Adressen

Ich werde keinen privaten 1:1 Support leisten, außer ich biete ihn ausdrücklich an.

Wenn man sich selbst als "Noob" bezeichnet, sollte man die Finger davon lassen.
Wenn man gewillt ist daran etwas zu ändern, lernt man Grundlagen!

Geändert von TobiaZ (08-09-2007 um 22:26 Uhr)
Mit Zitat antworten
  #3 (permalink)  
Alt 09-09-2007, 03:37
squirrelcgn
 Registrierter Benutzer
Links : Onlinestatus : squirrelcgn ist offline
Registriert seit: Sep 2005
Ort: koeln.nrw.de
Beiträge: 125
squirrelcgn ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Okay. Das "Beste", was ich hinbekommen habe ist folgendes:

Code:
#<div class=.*section-.*>([^<]*)</div>#is
Hier der RegExp-Evaluator-Link: http://regexp-evaluator.de/evaluator...b74c/#ergebnis

Ich kriege es nicht hin, dass die einzelnen (hier: 3) Section-Namen ausgegeben werden, sondern immer nur der letzte (hier: References). Ich weiß nicht weiter, wäre echt super, wenn mir jemand helfen könnte.

Vielen Dank und Grüße,
Christian
Mit Zitat antworten
  #4 (permalink)  
Alt 09-09-2007, 03:39
penizillin
 PHP Guru
Links : Onlinestatus : penizillin ist offline
Registriert seit: Feb 2004
Beiträge: 10.166
penizillin ist zur Zeit noch ein unbeschriebenes Blatt
Standard

ich dachte, du arbeitest mit xml?
Mit Zitat antworten
  #5 (permalink)  
Alt 09-09-2007, 12:49
TobiaZ
  Moderator
Links : Onlinestatus : TobiaZ ist offline
Registriert seit: Jan 2001
Ort: MUC und MGL, Germany
Beiträge: 34.421
Blog-Einträge: 1
TobiaZ befindet sich auf einem aufstrebenden Ast
Standard

1. du hast das erste __EGAL__ vergessen
2. __Nutzdaten__ ist natürlich auch .*
3. Ungierig!
__________________
ERST LESEN: Unsere Regeln. | Ich hab schon Pferde kotzen sehn!

READ THIS: Strings richtig trennen/verbinden | JOINs, das leidige Thema | Wegwerf E-Mail Adressen

Ich werde keinen privaten 1:1 Support leisten, außer ich biete ihn ausdrücklich an.

Wenn man sich selbst als "Noob" bezeichnet, sollte man die Finger davon lassen.
Wenn man gewillt ist daran etwas zu ändern, lernt man Grundlagen!
Mit Zitat antworten
  #6 (permalink)  
Alt 09-09-2007, 13:07
Benutzerbild von onemorenerd onemorenerd
  Moderator
Links : Onlinestatus : onemorenerd ist offline
Registriert seit: Mar 2005
Ort: Berlin
Beiträge: 9.471
onemorenerd wird schon bald berühmt werdenonemorenerd wird schon bald berühmt werden
Standard

4. Klammern

Etwa so: http://regexp-evaluator.de/evaluator...f6da/#ergebnis
Mit Zitat antworten
  #7 (permalink)  
Alt 09-09-2007, 14:13
TobiaZ
  Moderator
Links : Onlinestatus : TobiaZ ist offline
Registriert seit: Jan 2001
Ort: MUC und MGL, Germany
Beiträge: 34.421
Blog-Einträge: 1
TobiaZ befindet sich auf einem aufstrebenden Ast
Standard

viel zu viel...

/<div.*class=\".*section-.*\".*>(.*)<\/div>/iU
__________________
ERST LESEN: Unsere Regeln. | Ich hab schon Pferde kotzen sehn!

READ THIS: Strings richtig trennen/verbinden | JOINs, das leidige Thema | Wegwerf E-Mail Adressen

Ich werde keinen privaten 1:1 Support leisten, außer ich biete ihn ausdrücklich an.

Wenn man sich selbst als "Noob" bezeichnet, sollte man die Finger davon lassen.
Wenn man gewillt ist daran etwas zu ändern, lernt man Grundlagen!
Mit Zitat antworten
  #8 (permalink)  
Alt 09-09-2007, 22:02
squirrelcgn
 Registrierter Benutzer
Links : Onlinestatus : squirrelcgn ist offline
Registriert seit: Sep 2005
Ort: koeln.nrw.de
Beiträge: 125
squirrelcgn ist zur Zeit noch ein unbeschriebenes Blatt
Standard

@TobiaZ und onemorenerd: super! :-) Ich danke euch recht herzlich für die Korrekturen! Jetzt bin ich (nach ca. 2 Monaten) endlich am Ziel!:-)

@penizillin: ja, _auch_ xml! ;-) Ich hole mir ID-Listen aus riesigen XML-Files (Parser 1) und dann rufe ich (generiert aus diesen IDs) HTML-Seiten auf, aus denen ich dann verschiedenste Daten ziehe (Parser 2).

Nochmal vielen Dank an alle und viele Grüße!
Chris
Mit Zitat antworten
Antwort

Lesezeichen


Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)
 

Themen-Optionen
Thema bewerten
Thema bewerten:

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are an


PHP News

Die RIGID-FLEX-Technologie
Die RIGID-FLEX-TechnologieDie sogenannte "Flexible Elektronik" , oftmals auch als "Flexible Schaltungen" bezeichnet, ist eine zeitgemäße Technologie zum Montieren von elektronischen Schaltungen.

06.12.2018 | Berni

ebiz-trader 7.5.0 mit PHP7 Unterstützung veröffentlicht
ebiz-trader 7.5.0 mit PHP7 Unterstützung veröffentlichtDie bekannte Marktplatzsoftware ebiz-trader ist in der Version 7.5.0 veröffentlicht worden.

28.05.2018 | Berni


 

Aktuelle PHP Scripte

WeltExplorer v1.0

WeltExplorer v1.0 ist ein Dateimanager zum Browsen und Operieren im Dateisystem. Bei installiertem cURL können Ordner und Dateien zu entfernten FTP-Servern hochgeladen bzw. von diesen heruntergeladen werden, etwa zum Erstellen von Backups oder Mirrorsites

06.02.2019 weltvolk | Kategorie: PHP/ File
PG Job Site Pro

> Job Site Pro - web-basiertes Programm, auf PHP/MySQL für Erstellung der funktionellen Job Board Site gebaut. Das hat erweitertes Management-System für Arbeitssuchenden und Arbeitgeber und kann für bestimmte Länder, Regionen oder einfach generelle Job Si

05.02.2019 submit@ | Kategorie: PHP/ Management
ModuleStudio ansehen ModuleStudio

Modellgetriebene Entwicklung von Erweiterungen für das Open Source Framework Zikula.

15.01.2019 Guite | Kategorie: PHP ENTWICKLUNGSUMGEBUNG
 Alle PHP Scripte anzeigen

Alle Zeitangaben in WEZ +2. Es ist jetzt 12:36 Uhr.