- Ad -
php-resource



Zurück   PHP-Scripte PHP-Tutorials PHP-Jobs und vieles mehr > Entwicklung > PHP Developer Forum
 

Login

 
eingeloggt bleiben
star Jetzt registrieren   star Passwort vergessen
 

 

 

 


PHP Developer Forum Hier habt ihr die Möglichkeit, eure Skriptprobleme mit anderen Anwendern zu diskutieren. Seid so fair und beantwortet auch Fragen von anderen Anwendern. Dieses Forum ist sowohl für ANFÄNGER als auch für PHP-Profis! Post your PHP questions here!

Antwort
 
LinkBack Themen-Optionen Thema bewerten
  #1 (permalink)  
Alt 08-03-2006, 16:30
OnTheRun
 Junior Member
Links : Onlinestatus : OnTheRun ist offline
Registriert seit: Mar 2004
Beiträge: 55
OnTheRun ist zur Zeit noch ein unbeschriebenes Blatt
Standard HTML-Datei parsen und unterteilen?

Hallo allerseits,
ich habe eine HTML-Datei mit folgendem Pattern:

PHP-Code:
<tr><td VALIGN=top WIDTH=9BGCOLOR=#CCCCCC><b>Anzahl</b></td>
<td VALIGN=top WIDTH=16BGCOLOR=#CCCCCC><b>Art.Nr.</b></td>
<td VALIGN=top WIDTH=49BGCOLOR=#CCCCCC><b>Text</b></td>
<td VALIGN=top WIDTH=11BGCOLOR=#CCCCCC ALIGN="RIGHT"><b>Preis</b></td>
<td VALIGN=top WIDTH=15BGCOLOR=#CCCCCC ALIGN="RIGHT"><b>Betrag</b></td>
</tr
Ein Artikel sieht z.B. so aus:

PHP-Code:
<tr><td VALIGN=top WIDTH=9ALIGN="RIGHT">1</td>
<
td VALIGN=top WIDTH=16%>211245</td>
<
td VALIGN=top WIDTH=49%><b><FONT COLOR="#000000">MAX.Value FORTUNE 1000 I Celeron D 346<br>
</
FONT></b>inkl3 Jahre Garantieoptional VorOrt</td>
<
td VALIGN=top WIDTH=11ALIGN="RIGHT">714.70</td>
<
td VALIGN=top WIDTH=15ALIGN="RIGHT">714.70</td>
</
tr
Ich möchte das Ganze nun gerne so parsen, dass ich im obigen Beispiel so etwas habe ( die |-Trenner einfach nur, damit man es besser erkennt. Am besten wären array-elemente ):

1 | 211245 | MAX.Value FORTUNE 1000 I Celeron D 346<br>inkl. 3 Jahre Garantie, optional VorOrt | 714.70

Ich habe es bisher mit substr, preg_split und preg_match_all probiert.
Mit substr kann ich aber nicht den ganzen Block einlesen, resp. weiss nicht wie unterteilen.
Mit preg_match_all habe ich 100e von Arrays, welche nicht eindeutig identifizierbar sind und die Datei kann vor und nach diesen Blöcken variieren.
Mit preg_split habe ich mir alles ausser html-code ausgeben lassen, stosse aber auf das selbe Problem wie bei preg_match_all, nämlich dass ich nicht auf Zeilen gehen kann, da diese vor und nach den Blöcken variieren können.

Hat jemand eine Idee, wie ich das lösen kann?

Vielen Dank und Gruss
Mit Zitat antworten
  #2 (permalink)  
Alt 08-03-2006, 16:32
penizillin
 PHP Guru
Links : Onlinestatus : penizillin ist offline
Registriert seit: Feb 2004
Beiträge: 10.166
penizillin ist zur Zeit noch ein unbeschriebenes Blatt
Standard

preg_match_all() ist der einzige weg. sonst - datensätze manuell eintragen.
Mit Zitat antworten
  #3 (permalink)  
Alt 08-03-2006, 16:33
punisher
 Newbie
Links : Onlinestatus : punisher ist offline
Registriert seit: Mar 2006
Beiträge: 19
punisher ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Wo kommen denn die Artikel her?
Hab ich das richtig verstanden:
Du willst die Artikel so ausgeben, wie sie in der Tab. oben angeordnet sind, d. h. pro Artikel den obigen Text ersetzten und hinten anhängen, richtig?
__________________
___________________________
Good fight ... good night!
Mit Zitat antworten
  #4 (permalink)  
Alt 08-03-2006, 16:41
OnTheRun
 Junior Member
Links : Onlinestatus : OnTheRun ist offline
Registriert seit: Mar 2004
Beiträge: 55
OnTheRun ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Hallo, vielen Dank für eure Antworten.
Die Artikel kommen von unserem Warenwirtschaftssystem (was ein Wort ).
Ich hätte einfach gerne den jeweiligen Artikel (am besten in einem Array) unterteilt. In obigem Beispiel z.B.:

Anzahl: 1
ArtikelNr.: 211245
Artikel: MAX.Value FORTUNE 1000 I Celeron D 346<br>inkl. 3 Jahre Garantie, optional VorOrt
Betrag: 714.70

also am besten dann schlussendlich mal so:

$hw['article_id'] = '211245'
$hw['article_count'] = 1
$hw['article'] = 'MAX.Value FORTUNE 1000 I Celeron D 346<br>inkl. 3 Jahre Garantie, optional VorOrt'
$hw['price'] = '714.70'

Ist es denn irgendwie möglich, z.B. nach dem Pattern der Tabelle zu gehen?
Also z.B. wenn das Pattern nicht <tr><td></td><td></td><td></td><td></td><td></td></tr> ist, dann ignorieren und falls es zutrifft, html wegparsen (mit preg_split), dann Zeile für Zeile durchgehen -> 1. anzahl, 2. artikel-id, 3. artikel-text, 4. betrag ?

Vielen Dank und Gruss
Mit Zitat antworten
  #5 (permalink)  
Alt 08-03-2006, 16:50
punisher
 Newbie
Links : Onlinestatus : punisher ist offline
Registriert seit: Mar 2006
Beiträge: 19
punisher ist zur Zeit noch ein unbeschriebenes Blatt
Standard

du könntest die kompl. HTML Datei mit explode in einzelne Zeilen zerlegen und die dann durchgehen. Dann kannst du ja alle weglassen in denen keine "table" tags vorkommen.
__________________
___________________________
Good fight ... good night!
Mit Zitat antworten
  #6 (permalink)  
Alt 08-03-2006, 16:54
OnTheRun
 Junior Member
Links : Onlinestatus : OnTheRun ist offline
Registriert seit: Mar 2004
Beiträge: 55
OnTheRun ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Ja, aber dann hätte ich viele andere Sachen noch drin, welche ich nicht brauche
Vorallem können die table-tags ändern, je nach dem ob ein Bearbeiter noch was von Hand reinschreibt, die Adresse des Kunden noch das Land beinhaltet etc. etc.
Nur folgendes Pattern bleibt immer gleich:

PHP-Code:
<tr>
<
td></td>
<
td></td>
<
td></td>
<
td></td>
<
td></td>
</
tr
Z.B.:

PHP-Code:
<tr><td VALIGN=top WIDTH=9ALIGN="RIGHT">1</td>
<
td VALIGN=top WIDTH=16%>211245</td>
<
td VALIGN=top WIDTH=49%><b><FONT COLOR="#000000">MAX.Value FORTUNE 1000 I Celeron D 346<br>
</
FONT></b>inkl3 Jahre Garantieoptional VorOrt</td>
<
td VALIGN=top WIDTH=11ALIGN="RIGHT">714.70</td>
<
td VALIGN=top WIDTH=15ALIGN="RIGHT">714.70</td>
</
tr>

-------------------------------------------

<
tr><td VALIGN=top WIDTH=9ALIGN="RIGHT">1</td>
<
td VALIGN=top WIDTH=16%>258453</td>
<
td VALIGN=top WIDTH=49%>Microsoft&regOffice 2003 Basic deutsch</td>
<
td VALIGN=top WIDTH=11ALIGN="RIGHT">237.00</td>
<
td VALIGN=top WIDTH=15ALIGN="RIGHT">237.00</td>
</
tr>

-------------------------------------------

<
tr><td VALIGN=top WIDTH=9ALIGN="RIGHT">1</td>
<
td VALIGN=top WIDTH=16%>NEROEXPRESS</td>
<
td VALIGN=top WIDTH=49%>Nero Express 6.3 SuiteBrenn Software (CD-Version)</td>
<
td VALIGN=top WIDTH=11ALIGN="RIGHT">20.00</td>
<
td VALIGN=top WIDTH=15ALIGN="RIGHT">20.00</td>
</
tr
Ist es möglich, explizit dieses Pattern zu parsen und alles Andere zu filtern?

Vielen Dank und Gruss
Mit Zitat antworten
  #7 (permalink)  
Alt 08-03-2006, 17:00
punisher
 Newbie
Links : Onlinestatus : punisher ist offline
Registriert seit: Mar 2006
Beiträge: 19
punisher ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Tja, dann würd ich sagen das echt nur preg_match_all hilft, leider kann ich dir mit den regulären ausdrücken nicht helfen.

Grüße Punisher
__________________
___________________________
Good fight ... good night!
Mit Zitat antworten
  #8 (permalink)  
Alt 08-03-2006, 19:43
OnTheRun
 Junior Member
Links : Onlinestatus : OnTheRun ist offline
Registriert seit: Mar 2004
Beiträge: 55
OnTheRun ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Hallo,
ich kenne mich leider auch nicht sehr gut mit regulären Ausdrücken aus. Kann mir damit jemand weiterhelfen?

Vielen Dank und Gruss
Mit Zitat antworten
  #9 (permalink)  
Alt 09-03-2006, 01:18
jahlives
 Master
Links : Onlinestatus : jahlives ist offline
Registriert seit: Jun 2004
Ort: Hooker in Kernel
Beiträge: 8.283
jahlives ist zur Zeit noch ein unbeschriebenes Blatt
Standard

PHP-Code:
$str '<table><tr><td VALIGN=top WIDTH=9% ALIGN="RIGHT">1</td>
<td VALIGN=top WIDTH=16%>211245</td>
<td VALIGN=top WIDTH=49%><b><FONT COLOR="#000000">MAX.Value FORTUNE 1000 I Celeron D 346<br>
</FONT></b>inkl. 3 Jahre Garantie, optional VorOrt</td>
<td VALIGN=top WIDTH=11% ALIGN="RIGHT">714.70</td>
<td VALIGN=top WIDTH=15% ALIGN="RIGHT">714.70</td>
</tr>'
;
$str str_replace(array('</td>','<table>'),'--__--',$str);
$str striptags($str);
preg_match('/--__--(.*)--__--(.*)--__--(.*)--__--(.*)--__--(.*)--__--/sU',$str,$array);
echo 
'<pre>';
print_r($array);
echo </
pre>; 
In etwa so ? Code ist ungetestet und nur so auf die schnelle geschrieben

Gruss

tobi
__________________
Gutes Tutorial | PHP Manual | MySql Manual | PHP FAQ | Apache | Suchfunktion für eigene Seiten

"An error does not become truth by reason of multiplied propagation, nor does truth become error because nobody sees it."
Mohandas Karamchand Gandhi (Mahatma Gandhi) (Source)

Geändert von jahlives (09-03-2006 um 01:23 Uhr)
Mit Zitat antworten
  #10 (permalink)  
Alt 09-03-2006, 08:28
OnTheRun
 Junior Member
Links : Onlinestatus : OnTheRun ist offline
Registriert seit: Mar 2004
Beiträge: 55
OnTheRun ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Hallo,
vielen Dank für deine Antwort.
Ja, das kommt dem Resultat schon sehr nahe
Allerdings müsste ich diese Blöcke zuerst isolieren können und dann das Script anwenden. Ich habe vorher noch Sachen wie z.B.:

PHP-Code:
<div>&nbsp;</div>
<
div>&nbsp;</div>
<
div>&nbsp;</div>
<
div>&nbsp;</div>
<
div align="center">
<
table BORDER="0" width "100%"><tr><td VALIGN=top WIDTH=61%>&nbsp;<FONT COLOR="#000080"></FONT></td>
<
td VALIGN=top WIDTH=39%><br>
<
br>
Herr<br>
Hans Muster<br>
Musterstrassebr>
3000 Mustern<br>
<
br>
<
br>
<
br>
</
td>
</
tr>
<
tr><td VALIGN=top WIDTH=61%>&nbsp;<FONT COLOR="#000080"></FONT></td>
<
td VALIGN=top WIDTH=39%>Mustern1. Januar 2006</td>
</
tr>
</
table></div>
<
div>&nbsp;</div>
<
div>&nbsp;</div>
<
div>&nbsp;</div>
<
div><b><FONT SIZE=4>Offerte</FONT></b><b><FONT SIZE=4> </FONT></b><b><FONT SIZE=3>Nr12345</FONT></b></div>
<
div>&nbsp;</div>
<
div>TextTextTextTextTextTextTextTextTextTextTextText</div>
<
div>&nbsp;</div>
<
div>&nbsp;</div>
<
div align="center"
Ich müsste quasi zuerst eben die Strukturen
PHP-Code:
<tr>
<
td>Anzahl</td>
<
td>Art.Nr.</td>
<
td>Text</td>
<
td>Preis</td>
<
td>Betrag</td>
</
tr
Edit: Ich müsste quasi nur schauen, wo fängt ein <tr> an, sind 5 mal <td %>%</td> dazwischen und hört es mit einem </tr> auf? Falls ja, speichern, sonst verwerfen.

Edit2: Ich habe mich nun mal drangesetzt und versucht, das Pattern hinzubekommen, doch irgendwie will mir dies nicht gelingen, wahrscheinlich auch weil ich noch keinerlei Erfahrung mit patterns habe
Ich habe folgenden Ansatz:

PHP-Code:
$getHW file_get_contents'off1.html' );

preg_match_all"°<tr>((<td(.*?)>(.*?)</td>){5})</tr>°i"$getHW$result );

print_r$result ); 
Ich scheine allerdings etwas mit <tr> falsch zu machen, denn wenn ich z.B.:
PHP-Code:
preg_match_all"°<td(.*?]>(.*?)</td>°i"$getHW$result ); 
eingebe, geht das problemlos, sprich ich kriege alles, was zwischen <td*> und </td> steht ausgegeben.
Wenn ich allerdings
PHP-Code:
preg_match_all"°<tr>(.*?)</tr>°i"$getHW$result ); 
nehme, kriege ich keine Ausgabe. Wieso dies? Er sollte mir doch alles wo zwischen einem <tr></tr> steht ausgeben oder?
Zu meine eigentlichen Ansatz: Ist dies so korrekt? Quasi, gebe alles aus, wo 5 mal <td*>*</td> zwischen <tr> und </tr> vorkommt?

Vielen Dank und Gruss

Geändert von OnTheRun (09-03-2006 um 09:16 Uhr)
Mit Zitat antworten
  #11 (permalink)  
Alt 09-03-2006, 21:13
OnTheRun
 Junior Member
Links : Onlinestatus : OnTheRun ist offline
Registriert seit: Mar 2004
Beiträge: 55
OnTheRun ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Hallo allerseits,
nach einigem Knobeln scheine ich eine funktionierende Lösung gefunden zu haben. Für alle die es interessiert, hier ist sie :
PHP-Code:
/**
* @function     Adds hardware to the given ticket
*
* @param        $ticket_id    ID of the ticket, where the hardware belongs to
*                $file        Pointer to the file from epos
*
* @return        0            Adding hardware not successful
*                1            Hardware successfully added
**/
function add$ticket_id$file )
{    
    
$getHW file_get_contentsaddslashes$file ) );
        
    if( 
preg_match_all"°<td[^>]*>(.*)</td>
<td[^>]*>(.*)</td>
<td[^>]*>(.*)<br>
(.*)</td>
<td[^>]*>(.*)</td>
<td[^>]*>(.*)</td>°i"
$getHW$res_main ) != FALSE )
    {
        for( 
$i 1$i sizeof$res_main ) - 1$i++ )
        {
            
$res_hw[] =  str_replace"'"""strip_tags$res_main[$i][0] ) );
        }
        
        
$sqlAddHWT =     "INSERT INTO hardware
                        VALUES( '', '"
.$res_hw[0]."', '".$res_hw[1]."', 
                        '"
.$res_hw[2].$res_hw[3]."', '".$res_hw[4]."', '0' )";
        
$addHWT = new Query$sqlAddHWT );
        if( 
$addHWT->error() )
        {
            echo 
$addHWT->getError(); exit();
        }
        
//$addHWT->free();
        
$hw_id mysql_insert_id();
        
        
        
$sqlHWT =     "INSERT INTO hardware_ticket
                    VALUES( '$hw_id', '$ticket_id' )"
;
        
$HWT = new Query$sqlHWT );
        if( 
$HWT->error() )
        {
            echo 
$HWT->getError(); exit();
        }
        
//$HWT->free();
    
}
    
    if( 
preg_match_all"°<td[^>]*>(.*)</td>
<td[^>]*>(.*)</td>
<td[^>]*>(.*)</td>
<td[^>]*>(.*)</td>
<td[^>]*>(.*)</td>°i"
$getHW$result ) != FALSE )
    {
        for( 
$i 1$i sizeof$result[0] ); $i++ )
        {
            
$res[] = explode"
"
strip_tags$result[0][$i] ) );
        }
    
        for( 
$i 0$i sizeof$res ); $i++ )
        {
            for( 
$j 0$j sizeof$res[$i] ); $j++ )
            {
                if( 
$res[$i][$j] != '&nbsp;' )
                    
$res2[$i][$j] = str_replace"'"""$res[$i][$j] );
            }
        }
    
        for( 
$i 0$i sizeof$res2 ); $i++ )
        {
            
$sqlAddHWT =     "INSERT INTO hardware
                            VALUES( '', '"
.$res2[$i][0]."', '".$res2[$i][1]."',
                            '"
.$res2[$i][2]."', '".$res2[$i][4]."', '0')";
            
$addHWT = new Query$sqlAddHWT );
            if( 
$addHWT->error() )
            {
                echo 
$addHWT->getError(); exit();
            }
            
$hw_id mysql_insert_id();
            
//$addHWT->free();
            
            
$sqlHWT =     "INSERT INTO hardware_ticket 
                        VALUES( '$hw_id', '$ticket_id' )"
;
            
$HWT = new Query$sqlHWT );
            if( 
$HWT->error() )
            {
                echo 
$HWT->getError(); exit();
            }
            
//$HWT->free();
        
}
    }
    
    return 
1;

Gruss und schönen Abend

Geändert von OnTheRun (09-03-2006 um 21:29 Uhr)
Mit Zitat antworten
  #12 (permalink)  
Alt 09-03-2006, 21:19
TobiaZ
  Moderator
Links : Onlinestatus : TobiaZ ist offline
Registriert seit: Jan 2001
Ort: MUC und MGL, Germany
Beiträge: 34.188
Blog-Einträge: 1
TobiaZ befindet sich auf einem aufstrebenden Ast
Standard

Sehr vorbildlich. Wäre cool, wenn du die beiden SQL-Statements noch gemäß den Regeln umbrichst.
__________________
ERST LESEN: Unsere Regeln. | Ich hab schon Pferde kotzen sehn!

READ THIS: Strings richtig trennen/verbinden | JOINs, das leidige Thema | Wegwerf E-Mail Adressen

Ich werde keinen privaten 1:1 Support leisten, außer ich biete ihn ausdrücklich an.

Wenn man sich selbst als "Noob" bezeichnet, sollte man die Finger davon lassen.
Wenn man gewillt ist daran etwas zu ändern, lernt man Grundlagen!
Mit Zitat antworten
  #13 (permalink)  
Alt 10-03-2006, 00:29
prego
 PHP Senior
Links : Onlinestatus : prego ist offline
Registriert seit: May 2005
Ort: Hey ropp, hinne riwwer unn wirrer zuricke!
Beiträge: 1.602
prego ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Nur mal so zur Diskussion:

Was spricht dagegen die HTML-Datei druch nen XML Parser zu jagen und sich dann Anhand der Struktur das Ergebniss rauszufischen?
__________________
so long, der-p | 72dpi-club

Microsoft IE-Manager Dean Hachamovitch bei der Vorführung des IE7 Beta Preview 2 am 20.3.2006:
"Wir hatten mit IE ganz offensichtlich was verschlafen."
Mit Zitat antworten
  #14 (permalink)  
Alt 10-03-2006, 01:57
penizillin
 PHP Guru
Links : Onlinestatus : penizillin ist offline
Registriert seit: Feb 2004
Beiträge: 10.166
penizillin ist zur Zeit noch ein unbeschriebenes Blatt
Standard

allem anschein nach die tatsache, dass es sich hierbei um schäbiges html 4 handelt, das die wohlgeformtheit eines xml-doluments in frage stellt.
Mit Zitat antworten
  #15 (permalink)  
Alt 10-03-2006, 10:15
prego
 PHP Senior
Links : Onlinestatus : prego ist offline
Registriert seit: May 2005
Ort: Hey ropp, hinne riwwer unn wirrer zuricke!
Beiträge: 1.602
prego ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Ok, das ist ein Grund
__________________
so long, der-p | 72dpi-club

Microsoft IE-Manager Dean Hachamovitch bei der Vorführung des IE7 Beta Preview 2 am 20.3.2006:
"Wir hatten mit IE ganz offensichtlich was verschlafen."
Mit Zitat antworten
Antwort

Lesezeichen


Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)
 

Themen-Optionen
Thema bewerten
Thema bewerten:

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are an


PHP News

MariaDB 5.5 veröffentlicht
MariaDB 5.5 veröffentlichtDie freie MySQL-Alternative MariaDB wurde in der stabilen Version 5.5.23 veröffentlicht und soll einige Verbesserungen gegenüber Oracles Communityversion von MySQL mitbringen.

16.04.2012 | Berni

Deutsche Yii Framework Community
Deutsche Yii Framework CommunitySeit dem 19.03.2012 gibt es für die Yii PHP Framework Community ein deutsches Zuhause.

20.03.2012 | dhcomputer

 

Aktuelle PHP Scripte

Advanced Login ansehen Advanced Login

Login-System und Kundenverwaltung, die sich spielend leicht in bestehende Webseiten einbauen lässt und einen enormen Funktionsumfang bietet. Ihre eigene Webseite muss mit Advanced Login nicht umständlich an ein fertiges System angepasst werden.

25.05.2012 Madden | Kategorie: PHP/ Kundenverwaltung
BROM CMS/BelCal 3 ansehen BROM CMS/BelCal 3

Spezielles CMS für Betreiber von Ferienwohnungen. Komplette Seitenerstellung online, Verwaltung mehrerer Objekte, Reservierungssystem mit sofortigem Abgleich im Belegungskalender und vieles mehr bietet dieses Content Management System.

25.05.2012 belcal2 | Kategorie: PHP/ CMS
belbit LiveSupport Script ansehen belbit LiveSupport Script

Schnellen und unkomplizierten Support im LiveSupport-Chat anbieten. Ohne Datenbank und in wenigen Sekunden installiert.

24.05.2012 EichbaumMedia | Kategorie: PHP/ Chat
 Alle PHP Scripte anzeigen

Alle Zeitangaben in WEZ +2. Es ist jetzt 10:10 Uhr.