HTML-Datei parsen und unterteilen?

**penizillin** · 08.03.2006, 15:32

preg_match_all() ist der einzige weg. sonst - datensätze manuell eintragen.

**punisher** · 08.03.2006, 15:33

Wo kommen denn die Artikel her?
Hab ich das richtig verstanden:
Du willst die Artikel so ausgeben, wie sie in der Tab. oben angeordnet sind, d. h. pro Artikel den obigen Text ersetzten und hinten anhängen, richtig?

**OnTheRun** · 08.03.2006, 15:41

Hallo, vielen Dank für eure Antworten.
Die Artikel kommen von unserem Warenwirtschaftssystem (was ein Wort

).
Ich hätte einfach gerne den jeweiligen Artikel (am besten in einem Array) unterteilt. In obigem Beispiel z.B.:

Anzahl: 1
ArtikelNr.: 211245
Artikel: MAX.Value FORTUNE 1000 I Celeron D 346<br>inkl. 3 Jahre Garantie, optional VorOrt
Betrag: 714.70

also am besten dann schlussendlich mal so:

$hw['article_id'] = '211245'
$hw['article_count'] = 1
$hw['article'] = 'MAX.Value FORTUNE 1000 I Celeron D 346<br>inkl. 3 Jahre Garantie, optional VorOrt'
$hw['price'] = '714.70'

Ist es denn irgendwie möglich, z.B. nach dem Pattern der Tabelle zu gehen?
Also z.B. wenn das Pattern nicht <tr><td></td><td></td><td></td><td></td><td></td></tr> ist, dann ignorieren und falls es zutrifft, html wegparsen (mit preg_split), dann Zeile für Zeile durchgehen -> 1. anzahl, 2. artikel-id, 3. artikel-text, 4. betrag ?

Vielen Dank und Gruss

**punisher** · 08.03.2006, 15:50

du könntest die kompl. HTML Datei mit explode in einzelne Zeilen zerlegen und die dann durchgehen. Dann kannst du ja alle weglassen in denen keine "table" tags vorkommen.

**OnTheRun** · 08.03.2006, 15:54

Ja, aber dann hätte ich viele andere Sachen noch drin, welche ich nicht brauche

Vorallem können die table-tags ändern, je nach dem ob ein Bearbeiter noch was von Hand reinschreibt, die Adresse des Kunden noch das Land beinhaltet etc. etc.
Nur folgendes Pattern bleibt immer gleich:

PHP-Code:


<tr>

<td></td>

<td></td>

<td></td>

<td></td>

<td></td>

</tr>

Z.B.:

PHP-Code:


<tr><td VALIGN=top WIDTH=9% ALIGN="RIGHT">1</td>

<td VALIGN=top WIDTH=16%>211245</td>

<td VALIGN=top WIDTH=49%><b><FONT COLOR="#000000">MAX.Value FORTUNE 1000 I Celeron D 346<br>

</FONT></b>inkl. 3 Jahre Garantie, optional VorOrt</td>

<td VALIGN=top WIDTH=11% ALIGN="RIGHT">714.70</td>

<td VALIGN=top WIDTH=15% ALIGN="RIGHT">714.70</td>

</tr>



-------------------------------------------



<tr><td VALIGN=top WIDTH=9% ALIGN="RIGHT">1</td>

<td VALIGN=top WIDTH=16%>258453</td>

<td VALIGN=top WIDTH=49%>Microsoft&reg; Office 2003 Basic deutsch</td>

<td VALIGN=top WIDTH=11% ALIGN="RIGHT">237.00</td>

<td VALIGN=top WIDTH=15% ALIGN="RIGHT">237.00</td>

</tr>



-------------------------------------------



<tr><td VALIGN=top WIDTH=9% ALIGN="RIGHT">1</td>

<td VALIGN=top WIDTH=16%>NEROEXPRESS</td>

<td VALIGN=top WIDTH=49%>Nero Express 6.3 Suite, Brenn Software (CD-Version)</td>

<td VALIGN=top WIDTH=11% ALIGN="RIGHT">20.00</td>

<td VALIGN=top WIDTH=15% ALIGN="RIGHT">20.00</td>

</tr>

Ist es möglich, explizit dieses Pattern zu parsen und alles Andere zu filtern?

Vielen Dank und Gruss

**punisher** · 08.03.2006, 16:00

Tja, dann würd ich sagen das echt nur preg_match_all hilft, leider kann ich dir mit den regulären ausdrücken nicht helfen.

Grüße Punisher

**OnTheRun** · 08.03.2006, 18:43

Hallo,
ich kenne mich leider auch nicht sehr gut mit regulären Ausdrücken aus. Kann mir damit jemand weiterhelfen?

Vielen Dank und Gruss

**jahlives** · 09.03.2006, 00:18

PHP-Code:


$str = '<table><tr><td VALIGN=top WIDTH=9% ALIGN="RIGHT">1</td>

<td VALIGN=top WIDTH=16%>211245</td>

<td VALIGN=top WIDTH=49%><b><FONT COLOR="#000000">MAX.Value FORTUNE 1000 I Celeron D 346<br>

</FONT></b>inkl. 3 Jahre Garantie, optional VorOrt</td>

<td VALIGN=top WIDTH=11% ALIGN="RIGHT">714.70</td>

<td VALIGN=top WIDTH=15% ALIGN="RIGHT">714.70</td>

</tr>';

$str = str_replace(array('</td>','<table>'),'--__--',$str);

$str = striptags($str);

preg_match('/--__--(.*)--__--(.*)--__--(.*)--__--(.*)--__--(.*)--__--/sU',$str,$array);

echo '<pre>';

print_r($array);

echo '</pre>;

In etwa so ? Code ist ungetestet und nur so auf die schnelle geschrieben

Gruss

tobi

**OnTheRun** · 09.03.2006, 07:28

Hallo,
vielen Dank für deine Antwort.
Ja, das kommt dem Resultat schon sehr nahe

Allerdings müsste ich diese Blöcke zuerst isolieren können und dann das Script anwenden. Ich habe vorher noch Sachen wie z.B.:

PHP-Code:


<div>&nbsp;</div>

<div>&nbsp;</div>

<div>&nbsp;</div>

<div>&nbsp;</div>

<div align="center">

<table BORDER="0" width = "100%"><tr><td VALIGN=top WIDTH=61%>&nbsp;<FONT COLOR="#000080"></FONT></td>

<td VALIGN=top WIDTH=39%><br>

<br>

Herr<br>

Hans Muster<br>

Musterstrassebr>

3000 Mustern<br>

<br>

<br>

<br>

</td>

</tr>

<tr><td VALIGN=top WIDTH=61%>&nbsp;<FONT COLOR="#000080"></FONT></td>

<td VALIGN=top WIDTH=39%>Mustern, 1. Januar 2006</td>

</tr>

</table></div>

<div>&nbsp;</div>

<div>&nbsp;</div>

<div>&nbsp;</div>

<div><b><FONT SIZE=4>Offerte</FONT></b><b><FONT SIZE=4> </FONT></b><b><FONT SIZE=3>Nr. 12345</FONT></b></div>

<div>&nbsp;</div>

<div>TextTextTextTextTextTextTextTextTextTextTextText</div>

<div>&nbsp;</div>

<div>&nbsp;</div>

<div align="center">

Ich müsste quasi zuerst eben die Strukturen

PHP-Code:


<tr>

<td>Anzahl</td>

<td>Art.Nr.</td>

<td>Text</td>

<td>Preis</td>

<td>Betrag</td>

</tr>

Edit: Ich müsste quasi nur schauen, wo fängt ein <tr> an, sind 5 mal <td %>%</td> dazwischen und hört es mit einem </tr> auf? Falls ja, speichern, sonst verwerfen.

Edit2: Ich habe mich nun mal drangesetzt und versucht, das Pattern hinzubekommen, doch irgendwie will mir dies nicht gelingen, wahrscheinlich auch weil ich noch keinerlei Erfahrung mit patterns habe

Ich habe folgenden Ansatz:

PHP-Code:


$getHW = file_get_contents( 'off1.html' );



preg_match_all( "°<tr>((<td(.*?)>(.*?)</td>){5})</tr>°i", $getHW, $result );



print_r( $result );

Ich scheine allerdings etwas mit <tr> falsch zu machen, denn wenn ich z.B.:

PHP-Code:


preg_match_all( "°<td(.*?]>(.*?)</td>°i", $getHW, $result );

eingebe, geht das problemlos, sprich ich kriege alles, was zwischen <td*> und </td> steht ausgegeben.
Wenn ich allerdings

PHP-Code:


preg_match_all( "°<tr>(.*?)</tr>°i", $getHW, $result );

nehme, kriege ich keine Ausgabe. Wieso dies? Er sollte mir doch alles wo zwischen einem <tr></tr> steht ausgeben oder?
Zu meine eigentlichen Ansatz: Ist dies so korrekt? Quasi, gebe alles aus, wo 5 mal <td*>*</td> zwischen <tr> und </tr> vorkommt?

Vielen Dank und Gruss

**OnTheRun** · 09.03.2006, 20:13

Hallo allerseits,
nach einigem Knobeln scheine ich eine funktionierende Lösung gefunden zu haben. Für alle die es interessiert, hier ist sie

:

PHP-Code:


/**

* @function     Adds hardware to the given ticket

*

* @param        $ticket_id    ID of the ticket, where the hardware belongs to

*                $file        Pointer to the file from epos

*

* @return        0            Adding hardware not successful

*                1            Hardware successfully added

**/

function add( $ticket_id, $file )

{    

    $getHW = file_get_contents( addslashes( $file ) );

        

    if( preg_match_all( "°<td[^>]*>(.*)</td>

<td[^>]*>(.*)</td>

<td[^>]*>(.*)<br>

(.*)</td>

<td[^>]*>(.*)</td>

<td[^>]*>(.*)</td>°i", $getHW, $res_main ) != FALSE )

    {

        for( $i = 1; $i < sizeof( $res_main ) - 1; $i++ )

        {

            $res_hw[] =  str_replace( "'", "", strip_tags( $res_main[$i][0] ) );

        }

        

        $sqlAddHWT =     "INSERT INTO hardware

                        VALUES( '', '".$res_hw[0]."', '".$res_hw[1]."', 

                        '".$res_hw[2].$res_hw[3]."', '".$res_hw[4]."', '0' )";

        $addHWT = new Query( $sqlAddHWT );

        if( $addHWT->error() )

        {

            echo $addHWT->getError(); exit();

        }

        //$addHWT->free();

        $hw_id = mysql_insert_id();

        

        

        $sqlHWT =     "INSERT INTO hardware_ticket

                    VALUES( '$hw_id', '$ticket_id' )";

        $HWT = new Query( $sqlHWT );

        if( $HWT->error() )

        {

            echo $HWT->getError(); exit();

        }

        //$HWT->free();

    }

    

    if( preg_match_all( "°<td[^>]*>(.*)</td>

<td[^>]*>(.*)</td>

<td[^>]*>(.*)</td>

<td[^>]*>(.*)</td>

<td[^>]*>(.*)</td>°i", $getHW, $result ) != FALSE )

    {

        for( $i = 1; $i < sizeof( $result[0] ); $i++ )

        {

            $res[] = explode( "

", strip_tags( $result[0][$i] ) );

        }

    

        for( $i = 0; $i < sizeof( $res ); $i++ )

        {

            for( $j = 0; $j < sizeof( $res[$i] ); $j++ )

            {

                if( $res[$i][$j] != '&nbsp;' )

                    $res2[$i][$j] = str_replace( "'", "", $res[$i][$j] );

            }

        }

    

        for( $i = 0; $i < sizeof( $res2 ); $i++ )

        {

            $sqlAddHWT =     "INSERT INTO hardware

                            VALUES( '', '".$res2[$i][0]."', '".$res2[$i][1]."',

                            '".$res2[$i][2]."', '".$res2[$i][4]."', '0')";

            $addHWT = new Query( $sqlAddHWT );

            if( $addHWT->error() )

            {

                echo $addHWT->getError(); exit();

            }

            $hw_id = mysql_insert_id();

            //$addHWT->free();

            

            $sqlHWT =     "INSERT INTO hardware_ticket 

                        VALUES( '$hw_id', '$ticket_id' )";

            $HWT = new Query( $sqlHWT );

            if( $HWT->error() )

            {

                echo $HWT->getError(); exit();

            }

            //$HWT->free();

        }

    }

    

    return 1;

}

Gruss und schönen Abend

**TobiaZ** · 09.03.2006, 20:19

Sehr vorbildlich. Wäre cool, wenn du die beiden SQL-Statements noch gemäß den Regeln umbrichst.

**prego** · 09.03.2006, 23:29

Nur mal so zur Diskussion:

Was spricht dagegen die HTML-Datei druch nen XML Parser zu jagen und sich dann Anhand der Struktur das Ergebniss rauszufischen?

**penizillin** · 10.03.2006, 00:57

allem anschein nach die tatsache, dass es sich hierbei um schäbiges html 4 handelt, das die wohlgeformtheit eines xml-doluments in frage stellt.

**prego** · 10.03.2006, 09:15

Ok, das ist ein Grund

HTML-Datei parsen und unterteilen?