| PHP Developer Forum Hier habt ihr die Möglichkeit, eure Skriptprobleme mit anderen Anwendern zu diskutieren. Seid so fair und beantwortet auch Fragen von anderen Anwendern. Dieses Forum ist sowohl für ANFÄNGER als auch für PHP-Profis! Post your PHP questions here! |
 |

08-03-2006, 16:30
|
|
OnTheRun
Junior Member
|
|
Registriert seit: Mar 2004
Beiträge: 55
|
|
HTML-Datei parsen und unterteilen?
Hallo allerseits,
ich habe eine HTML-Datei mit folgendem Pattern:
PHP-Code:
<tr><td VALIGN=top WIDTH=9% BGCOLOR=#CCCCCC><b>Anzahl</b></td>
<td VALIGN=top WIDTH=16% BGCOLOR=#CCCCCC><b>Art.Nr.</b></td>
<td VALIGN=top WIDTH=49% BGCOLOR=#CCCCCC><b>Text</b></td>
<td VALIGN=top WIDTH=11% BGCOLOR=#CCCCCC ALIGN="RIGHT"><b>Preis</b></td>
<td VALIGN=top WIDTH=15% BGCOLOR=#CCCCCC ALIGN="RIGHT"><b>Betrag</b></td>
</tr>
Ein Artikel sieht z.B. so aus:
PHP-Code:
<tr><td VALIGN=top WIDTH=9% ALIGN="RIGHT">1</td>
<td VALIGN=top WIDTH=16%>211245</td>
<td VALIGN=top WIDTH=49%><b><FONT COLOR="#000000">MAX.Value FORTUNE 1000 I Celeron D 346<br>
</FONT></b>inkl. 3 Jahre Garantie, optional VorOrt</td>
<td VALIGN=top WIDTH=11% ALIGN="RIGHT">714.70</td>
<td VALIGN=top WIDTH=15% ALIGN="RIGHT">714.70</td>
</tr>
Ich möchte das Ganze nun gerne so parsen, dass ich im obigen Beispiel so etwas habe ( die |-Trenner einfach nur, damit man es besser erkennt. Am besten wären array-elemente  ):
1 | 211245 | MAX.Value FORTUNE 1000 I Celeron D 346<br>inkl. 3 Jahre Garantie, optional VorOrt | 714.70
Ich habe es bisher mit substr, preg_split und preg_match_all probiert.
Mit substr kann ich aber nicht den ganzen Block einlesen, resp. weiss nicht wie unterteilen.
Mit preg_match_all habe ich 100e von Arrays, welche nicht eindeutig identifizierbar sind und die Datei kann vor und nach diesen Blöcken variieren.
Mit preg_split habe ich mir alles ausser html-code ausgeben lassen, stosse aber auf das selbe Problem wie bei preg_match_all, nämlich dass ich nicht auf Zeilen gehen kann, da diese vor und nach den Blöcken variieren können.
Hat jemand eine Idee, wie ich das lösen kann?
Vielen Dank und Gruss
|

08-03-2006, 16:32
|
|
penizillin
PHP Guru
|
|
Registriert seit: Feb 2004
Beiträge: 10.166
|
|
preg_match_all() ist der einzige weg. sonst - datensätze manuell eintragen.
|

08-03-2006, 16:33
|
|
punisher
Newbie
|
|
Registriert seit: Mar 2006
Beiträge: 19
|
|
Wo kommen denn die Artikel her?
Hab ich das richtig verstanden:
Du willst die Artikel so ausgeben, wie sie in der Tab. oben angeordnet sind, d. h. pro Artikel den obigen Text ersetzten und hinten anhängen, richtig?
__________________
___________________________
Good fight ... good night!
|

08-03-2006, 16:41
|
|
OnTheRun
Junior Member
|
|
Registriert seit: Mar 2004
Beiträge: 55
|
|
Hallo, vielen Dank für eure Antworten.
Die Artikel kommen von unserem Warenwirtschaftssystem (was ein Wort  ).
Ich hätte einfach gerne den jeweiligen Artikel (am besten in einem Array) unterteilt. In obigem Beispiel z.B.:
Anzahl: 1
ArtikelNr.: 211245
Artikel: MAX.Value FORTUNE 1000 I Celeron D 346<br>inkl. 3 Jahre Garantie, optional VorOrt
Betrag: 714.70
also am besten dann schlussendlich mal so:
$hw['article_id'] = '211245'
$hw['article_count'] = 1
$hw['article'] = 'MAX.Value FORTUNE 1000 I Celeron D 346<br>inkl. 3 Jahre Garantie, optional VorOrt'
$hw['price'] = '714.70'
Ist es denn irgendwie möglich, z.B. nach dem Pattern der Tabelle zu gehen?
Also z.B. wenn das Pattern nicht <tr><td></td><td></td><td></td><td></td><td></td></tr> ist, dann ignorieren und falls es zutrifft, html wegparsen (mit preg_split), dann Zeile für Zeile durchgehen -> 1. anzahl, 2. artikel-id, 3. artikel-text, 4. betrag ?
Vielen Dank und Gruss
|

08-03-2006, 16:50
|
|
punisher
Newbie
|
|
Registriert seit: Mar 2006
Beiträge: 19
|
|
du könntest die kompl. HTML Datei mit explode in einzelne Zeilen zerlegen und die dann durchgehen. Dann kannst du ja alle weglassen in denen keine "table" tags vorkommen.
__________________
___________________________
Good fight ... good night!
|

08-03-2006, 16:54
|
|
OnTheRun
Junior Member
|
|
Registriert seit: Mar 2004
Beiträge: 55
|
|
Ja, aber dann hätte ich viele andere Sachen noch drin, welche ich nicht brauche 
Vorallem können die table-tags ändern, je nach dem ob ein Bearbeiter noch was von Hand reinschreibt, die Adresse des Kunden noch das Land beinhaltet etc. etc.
Nur folgendes Pattern bleibt immer gleich:
PHP-Code:
<tr>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
</tr>
Z.B.:
PHP-Code:
<tr><td VALIGN=top WIDTH=9% ALIGN="RIGHT">1</td>
<td VALIGN=top WIDTH=16%>211245</td>
<td VALIGN=top WIDTH=49%><b><FONT COLOR="#000000">MAX.Value FORTUNE 1000 I Celeron D 346<br>
</FONT></b>inkl. 3 Jahre Garantie, optional VorOrt</td>
<td VALIGN=top WIDTH=11% ALIGN="RIGHT">714.70</td>
<td VALIGN=top WIDTH=15% ALIGN="RIGHT">714.70</td>
</tr>
-------------------------------------------
<tr><td VALIGN=top WIDTH=9% ALIGN="RIGHT">1</td>
<td VALIGN=top WIDTH=16%>258453</td>
<td VALIGN=top WIDTH=49%>Microsoft® Office 2003 Basic deutsch</td>
<td VALIGN=top WIDTH=11% ALIGN="RIGHT">237.00</td>
<td VALIGN=top WIDTH=15% ALIGN="RIGHT">237.00</td>
</tr>
-------------------------------------------
<tr><td VALIGN=top WIDTH=9% ALIGN="RIGHT">1</td>
<td VALIGN=top WIDTH=16%>NEROEXPRESS</td>
<td VALIGN=top WIDTH=49%>Nero Express 6.3 Suite, Brenn Software (CD-Version)</td>
<td VALIGN=top WIDTH=11% ALIGN="RIGHT">20.00</td>
<td VALIGN=top WIDTH=15% ALIGN="RIGHT">20.00</td>
</tr>
Ist es möglich, explizit dieses Pattern zu parsen und alles Andere zu filtern?
Vielen Dank und Gruss
|

08-03-2006, 17:00
|
|
punisher
Newbie
|
|
Registriert seit: Mar 2006
Beiträge: 19
|
|
Tja, dann würd ich sagen das echt nur preg_match_all hilft, leider kann ich dir mit den regulären ausdrücken nicht helfen.
Grüße Punisher
__________________
___________________________
Good fight ... good night!
|

08-03-2006, 19:43
|
|
OnTheRun
Junior Member
|
|
Registriert seit: Mar 2004
Beiträge: 55
|
|
Hallo,
ich kenne mich leider auch nicht sehr gut mit regulären Ausdrücken aus. Kann mir damit jemand weiterhelfen?
Vielen Dank und Gruss
|

09-03-2006, 01:18
|
jahlives
Master  
|
|
Registriert seit: Jun 2004
Ort: Hooker in Kernel
Beiträge: 8.283
|
|
PHP-Code:
$str = '<table><tr><td VALIGN=top WIDTH=9% ALIGN="RIGHT">1</td>
<td VALIGN=top WIDTH=16%>211245</td>
<td VALIGN=top WIDTH=49%><b><FONT COLOR="#000000">MAX.Value FORTUNE 1000 I Celeron D 346<br>
</FONT></b>inkl. 3 Jahre Garantie, optional VorOrt</td>
<td VALIGN=top WIDTH=11% ALIGN="RIGHT">714.70</td>
<td VALIGN=top WIDTH=15% ALIGN="RIGHT">714.70</td>
</tr>';
$str = str_replace(array('</td>','<table>'),'--__--',$str);
$str = striptags($str);
preg_match('/--__--(.*)--__--(.*)--__--(.*)--__--(.*)--__--(.*)--__--/sU',$str,$array);
echo '<pre>';
print_r($array);
echo </pre>;
In etwa so ? Code ist ungetestet und nur so auf die schnelle geschrieben
Gruss
tobi
Geändert von jahlives (09-03-2006 um 01:23 Uhr)
|

09-03-2006, 08:28
|
|
OnTheRun
Junior Member
|
|
Registriert seit: Mar 2004
Beiträge: 55
|
|
Hallo,
vielen Dank für deine Antwort.
Ja, das kommt dem Resultat schon sehr nahe 
Allerdings müsste ich diese Blöcke zuerst isolieren können und dann das Script anwenden. Ich habe vorher noch Sachen wie z.B.:
PHP-Code:
<div> </div>
<div> </div>
<div> </div>
<div> </div>
<div align="center">
<table BORDER="0" width = "100%"><tr><td VALIGN=top WIDTH=61%> <FONT COLOR="#000080"></FONT></td>
<td VALIGN=top WIDTH=39%><br>
<br>
Herr<br>
Hans Muster<br>
Musterstrassebr>
3000 Mustern<br>
<br>
<br>
<br>
</td>
</tr>
<tr><td VALIGN=top WIDTH=61%> <FONT COLOR="#000080"></FONT></td>
<td VALIGN=top WIDTH=39%>Mustern, 1. Januar 2006</td>
</tr>
</table></div>
<div> </div>
<div> </div>
<div> </div>
<div><b><FONT SIZE=4>Offerte</FONT></b><b><FONT SIZE=4> </FONT></b><b><FONT SIZE=3>Nr. 12345</FONT></b></div>
<div> </div>
<div>TextTextTextTextTextTextTextTextTextTextTextText</div>
<div> </div>
<div> </div>
<div align="center">
Ich müsste quasi zuerst eben die Strukturen
PHP-Code:
<tr>
<td>Anzahl</td>
<td>Art.Nr.</td>
<td>Text</td>
<td>Preis</td>
<td>Betrag</td>
</tr>
Edit: Ich müsste quasi nur schauen, wo fängt ein <tr> an, sind 5 mal <td %>%</td> dazwischen und hört es mit einem </tr> auf? Falls ja, speichern, sonst verwerfen.
Edit2: Ich habe mich nun mal drangesetzt und versucht, das Pattern hinzubekommen, doch irgendwie will mir dies nicht gelingen, wahrscheinlich auch weil ich noch keinerlei Erfahrung mit patterns habe 
Ich habe folgenden Ansatz:
PHP-Code:
$getHW = file_get_contents( 'off1.html' );
preg_match_all( "°<tr>((<td(.*?)>(.*?)</td>){5})</tr>°i", $getHW, $result );
print_r( $result );
Ich scheine allerdings etwas mit <tr> falsch zu machen, denn wenn ich z.B.:
PHP-Code:
preg_match_all( "°<td(.*?]>(.*?)</td>°i", $getHW, $result );
eingebe, geht das problemlos, sprich ich kriege alles, was zwischen <td*> und </td> steht ausgegeben.
Wenn ich allerdings
PHP-Code:
preg_match_all( "°<tr>(.*?)</tr>°i", $getHW, $result );
nehme, kriege ich keine Ausgabe. Wieso dies? Er sollte mir doch alles wo zwischen einem <tr></tr> steht ausgeben oder?
Zu meine eigentlichen Ansatz: Ist dies so korrekt? Quasi, gebe alles aus, wo 5 mal <td*>*</td> zwischen <tr> und </tr> vorkommt?
Vielen Dank und Gruss
Geändert von OnTheRun (09-03-2006 um 09:16 Uhr)
|

09-03-2006, 21:13
|
|
OnTheRun
Junior Member
|
|
Registriert seit: Mar 2004
Beiträge: 55
|
|
Hallo allerseits,
nach einigem Knobeln scheine ich eine funktionierende Lösung gefunden zu haben. Für alle die es interessiert, hier ist sie  :
PHP-Code:
/**
* @function Adds hardware to the given ticket
*
* @param $ticket_id ID of the ticket, where the hardware belongs to
* $file Pointer to the file from epos
*
* @return 0 Adding hardware not successful
* 1 Hardware successfully added
**/
function add( $ticket_id, $file )
{
$getHW = file_get_contents( addslashes( $file ) );
if( preg_match_all( "°<td[^>]*>(.*)</td>
<td[^>]*>(.*)</td>
<td[^>]*>(.*)<br>
(.*)</td>
<td[^>]*>(.*)</td>
<td[^>]*>(.*)</td>°i", $getHW, $res_main ) != FALSE )
{
for( $i = 1; $i < sizeof( $res_main ) - 1; $i++ )
{
$res_hw[] = str_replace( "'", "", strip_tags( $res_main[$i][0] ) );
}
$sqlAddHWT = "INSERT INTO hardware
VALUES( '', '".$res_hw[0]."', '".$res_hw[1]."',
'".$res_hw[2].$res_hw[3]."', '".$res_hw[4]."', '0' )";
$addHWT = new Query( $sqlAddHWT );
if( $addHWT->error() )
{
echo $addHWT->getError(); exit();
}
//$addHWT->free();
$hw_id = mysql_insert_id();
$sqlHWT = "INSERT INTO hardware_ticket
VALUES( '$hw_id', '$ticket_id' )";
$HWT = new Query( $sqlHWT );
if( $HWT->error() )
{
echo $HWT->getError(); exit();
}
//$HWT->free();
}
if( preg_match_all( "°<td[^>]*>(.*)</td>
<td[^>]*>(.*)</td>
<td[^>]*>(.*)</td>
<td[^>]*>(.*)</td>
<td[^>]*>(.*)</td>°i", $getHW, $result ) != FALSE )
{
for( $i = 1; $i < sizeof( $result[0] ); $i++ )
{
$res[] = explode( "
", strip_tags( $result[0][$i] ) );
}
for( $i = 0; $i < sizeof( $res ); $i++ )
{
for( $j = 0; $j < sizeof( $res[$i] ); $j++ )
{
if( $res[$i][$j] != ' ' )
$res2[$i][$j] = str_replace( "'", "", $res[$i][$j] );
}
}
for( $i = 0; $i < sizeof( $res2 ); $i++ )
{
$sqlAddHWT = "INSERT INTO hardware
VALUES( '', '".$res2[$i][0]."', '".$res2[$i][1]."',
'".$res2[$i][2]."', '".$res2[$i][4]."', '0')";
$addHWT = new Query( $sqlAddHWT );
if( $addHWT->error() )
{
echo $addHWT->getError(); exit();
}
$hw_id = mysql_insert_id();
//$addHWT->free();
$sqlHWT = "INSERT INTO hardware_ticket
VALUES( '$hw_id', '$ticket_id' )";
$HWT = new Query( $sqlHWT );
if( $HWT->error() )
{
echo $HWT->getError(); exit();
}
//$HWT->free();
}
}
return 1;
}
Gruss und schönen Abend
Geändert von OnTheRun (09-03-2006 um 21:29 Uhr)
|

09-03-2006, 21:19
|
TobiaZ
 Moderator
|
|
Registriert seit: Jan 2001
Ort: MUC und MGL, Germany
Beiträge: 34.188
|
|
Sehr vorbildlich. Wäre cool, wenn du die beiden SQL-Statements noch gemäß den Regeln umbrichst.
|

10-03-2006, 00:29
|
|
prego
PHP Senior
|
|
Registriert seit: May 2005
Ort: Hey ropp, hinne riwwer unn wirrer zuricke!
Beiträge: 1.602
|
|
Nur mal so zur Diskussion:
Was spricht dagegen die HTML-Datei druch nen XML Parser zu jagen und sich dann Anhand der Struktur das Ergebniss rauszufischen?
__________________
so long, der-p | 72dpi-club
Microsoft IE-Manager Dean Hachamovitch bei der Vorführung des IE7 Beta Preview 2 am 20.3.2006:
"Wir hatten mit IE ganz offensichtlich was verschlafen."
|

10-03-2006, 01:57
|
|
penizillin
PHP Guru
|
|
Registriert seit: Feb 2004
Beiträge: 10.166
|
|
allem anschein nach die tatsache, dass es sich hierbei um schäbiges html 4 handelt, das die wohlgeformtheit eines xml-doluments in frage stellt.
|

10-03-2006, 10:15
|
|
prego
PHP Senior
|
|
Registriert seit: May 2005
Ort: Hey ropp, hinne riwwer unn wirrer zuricke!
Beiträge: 1.602
|
|
Ok, das ist ein Grund
__________________
so long, der-p | 72dpi-club
Microsoft IE-Manager Dean Hachamovitch bei der Vorführung des IE7 Beta Preview 2 am 20.3.2006:
"Wir hatten mit IE ganz offensichtlich was verschlafen."
|
|
Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)
|
|
|
| Themen-Optionen |
|
|
| Thema bewerten |
|
|
Forumregeln
|
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.
HTML-Code ist aus.
|
|
|
|
PHP News
|