- Ad -
php-resource



Zurück   PHP-Scripte PHP-Tutorials PHP-Jobs und vieles mehr > Entwicklung > PHP Developer Forum
 

Login

 
eingeloggt bleiben
star Jetzt registrieren   star Passwort vergessen
 

 

 

 


PHP Developer Forum Hier habt ihr die Möglichkeit, eure Skriptprobleme mit anderen Anwendern zu diskutieren. Seid so fair und beantwortet auch Fragen von anderen Anwendern. Dieses Forum ist sowohl für ANFÄNGER als auch für PHP-Profis! Post your PHP questions here!

Antwort
 
LinkBack Themen-Optionen Thema bewerten
  #1 (permalink)  
Alt 19-06-2009, 14:45
mgutt
 Registrierter Benutzer
Links : Onlinestatus : mgutt ist offline
Registriert seit: May 2006
Beiträge: 73
mgutt ist zur Zeit noch ein unbeschriebenes Blatt
Standard <body>(.*)</body> aus HTML extrahieren

Hi,

komme ich damit klar, wenn ich den Quelltext einer Seite auf den Body reduzieren möchte oder muss ich noch irgendwas besonderes berücksichtigen?
Code:
$src = preg_replace('#<html.*<body.*>(.*?)</body.*>.*</html.*>#Uis', '\\1', $src);
Ich habe den Wert in den Klammern greedy gemacht, da es theoretisch sein kann, dass durch einen Fehler zwei <body>'s auf der Seite sein könnten. Hatte ich schon mal bei einem Kunden gesehen, weil der ein CMS hatte, dass einfach HTML-Seiten als Content includierte und die Seite ging trotzdem.

EDIT: Hmm.. ersetzt der dann das zwei mal oder nur einmal? Also was macht der aus:
Code:
<html>
<head>
</head>
<body>
Inhalt 1
<html>
<head>
</head>
<body>
Inhalt 2
</body>
</html>
</body>
</html>
Muss ich wohl mal testen...

EDIT2:
Ok daraus wird:
Code:
Inhalt 1
<html>
<head>
</head>
<body>
Inhalt 2
</body>
</html>
Das ist schlecht :P

EDIT3:
Ich denke ich lösche danach noch mal alle <html>, <head> und <body> Bereiche. Dann dürfte das klappen. Ich will nämlich Inhalt2 nicht haben.

Gruß
Marc
__________________
mein Honda Forum | meine Scripte

Geändert von mgutt (19-06-2009 um 14:59 Uhr)
Mit Zitat antworten
  #2 (permalink)  
Alt 19-06-2009, 14:46
wahsaga
  Moderator
Links : Onlinestatus : wahsaga ist offline
Registriert seit: Sep 2001
Beiträge: 24.486
wahsaga befindet sich auf einem aufstrebenden Ast
Standard

Zitat:
Zitat von mgutt Beitrag anzeigen
komme ich damit klar
Weiss nicht - sag's uns ...
__________________
I don't believe in rebirth. Actually, I never did in my whole lives.
Mit Zitat antworten
  #3 (permalink)  
Alt 19-06-2009, 23:31
Benutzerbild von fireweasel fireweasel
 Registrierter Benutzer
Links : Onlinestatus : fireweasel ist offline
Registriert seit: Sep 2008
Ort: At home
Beiträge: 680
fireweasel wird schon bald berühmt werden
fireweasel eine Nachricht über AIM schicken fireweasel eine Nachricht über Yahoo! schicken
Standard

Zitat:
Zitat von mgutt Beitrag anzeigen
Hi,

komme ich damit klar, wenn ich den Quelltext einer Seite auf den Body reduzieren möchte oder muss ich noch irgendwas besonderes berücksichtigen?
Code:
$src = preg_replace('#<html.*<body.*>(.*?)</body.*>.*</html.*>#Uis', '\\1', $src);
Ich habe den Wert in den Klammern greedy gemacht, ...
Lazy wäre wohl richtig gewesen ...
Aber man kommt schnell durcheinander, wenn man den Verdreh-Modifikator /U benutzt. Deshalb lasse ich den gewöhnlich weg, und schreibe lieber ein paar Fragzeichen mehr in den RegEx.

Du solltest zum "Ausschneiden" eines Teilstrings besser die passende Funktion benutzen. Preg_replace() hat (u. A.) den Nachteil, dass du den ganzen Originalstring bekommst, wenn dein RegEx nicht passt.

PHP-Code:
$part preg_match('/<html.*?<body.*?>(.*?)<\/body.*?>.*?<\/html.*?>/is'$html_src$hits)
        ? 
$hits[1] : ''
Zitat:
da es theoretisch sein kann, dass durch einen Fehler zwei <body>'s auf der Seite sein könnten. Hatte ich schon mal bei einem Kunden gesehen, weil der ein CMS hatte, dass einfach HTML-Seiten als Content includierte und die Seite ging trotzdem.
Ja, die HTML-Parser der gängigen Webbrowser sind schon arme Schweine. Die müssen auch den größten Unfug in irgendwie darstellbare Form bringen.

Zitat:
Ich denke ich lösche danach noch mal alle <html>, <head> und <body> Bereiche. Dann dürfte das klappen. Ich will nämlich Inhalt2 nicht haben.
Siehe mein Vorschlag ...
__________________
PHP-Code:
class Brick implements Throwable {
    
// ... 


Geändert von fireweasel (19-06-2009 um 23:39 Uhr)
Mit Zitat antworten
  #4 (permalink)  
Alt 20-06-2009, 01:12
mgutt
 Registrierter Benutzer
Links : Onlinestatus : mgutt ist offline
Registriert seit: May 2006
Beiträge: 73
mgutt ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Zitat:
Zitat von fireweasel Beitrag anzeigen
Lazy wäre wohl richtig gewesen ...
Aber man kommt schnell durcheinander, wenn man den Verdreh-Modifikator /U benutzt. Deshalb lasse ich den gewöhnlich weg, und schreibe lieber ein paar Fragzeichen mehr in den RegEx.
Ich nicht und wenn Du noch mal hinschaust, siehst Du, dass er Greedy ist. Ich arbeite beim body genauso wie der Browser. Der nimmt nur die äußeren Tags. Dein preg_match()-Beispiel dagegen die inneren Tags, wodurch ein eingebettes HTML zum vorzeitigen Abbruch der Verarbeitung führt und alles was nach dem eingebetteten HTML kommt wird dadurch ignoriert. Der Browser dagegen stellt auch noch das alles dar, weil er gar nicht nach einem Ende sucht. Daher hat google.de auch keine endenden body- und html-Tags.

Zitat:
Du solltest zum "Ausschneiden" eines Teilstrings besser die passende Funktion benutzen. Preg_replace() hat (u. A.) den Nachteil, dass du den ganzen Originalstring bekommst, wenn dein RegEx nicht passt.
Was Du als Nachteil bezeichnest, sehe ich als Vorteil und ich würde die Argumentation auch vollkommen umdrehen, da ich nichts ausschneiden möchte, sondern löschen (den Kopf und den Fuß). Du löschst den Quellcode weiterhin komplett, wenn nichts gefunden wurde.

Ich will aber - bei nicht vorhandenen html- und body-Tags - das haben was übrigt bleibt, weil man dann davon ausgehen muss, dass der Webmaster die entsprechenden Tags weggelassen hat. Weiterhin ist preg_replace() performanter, da es ohne eine zusätzliche Bedingung und ohne ein zusätzliches Array auskommt.
__________________
mein Honda Forum | meine Scripte
Mit Zitat antworten
  #5 (permalink)  
Alt 20-06-2009, 01:14
mgutt
 Registrierter Benutzer
Links : Onlinestatus : mgutt ist offline
Registriert seit: May 2006
Beiträge: 73
mgutt ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Zitat:
Zitat von wahsaga Beitrag anzeigen
Weiss nicht - sag's uns ...
Damit wollte ich auf bestimmte Eventualitäten anspielen, die ich selbst vielleicht nicht bedacht habe.

Ich habe z.B. die Groß- und Kleinschrift ignoriert und berücksichtigt, dass nach einem öffnenden Tag noch weitere Zeichen folgen könnten. Vielleicht gibts ja noch was, was ich vergessen habe.
__________________
mein Honda Forum | meine Scripte
Mit Zitat antworten
Antwort

Lesezeichen


Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)
 

Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
[REGEX] Inhalt zwischen <body> und </body> Tiger_XT PHP Developer Forum 2 23-03-2007 14:32
nur den body aus HTML herausfiltern Trompetenkäfer PHP Developer Forum 2 20-10-2006 01:50
<body... </body> auslesen starsk8er PHP Developer Forum 2 03-08-2006 16:30
[HTML] Email-Link &body Funktion Webbymaster HTML, JavaScript, AJAX und CSS 3 14-04-2006 20:37
HTML innerhalb von <body></body> auslesen chrisonline PHP Developer Forum 4 21-09-2002 15:41

Themen-Optionen
Thema bewerten
Thema bewerten:

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are an


PHP News

MariaDB 5.5 veröffentlicht
MariaDB 5.5 veröffentlichtDie freie MySQL-Alternative MariaDB wurde in der stabilen Version 5.5.23 veröffentlicht und soll einige Verbesserungen gegenüber Oracles Communityversion von MySQL mitbringen.

16.04.2012 | Berni

Deutsche Yii Framework Community
Deutsche Yii Framework CommunitySeit dem 19.03.2012 gibt es für die Yii PHP Framework Community ein deutsches Zuhause.

20.03.2012 | dhcomputer

 

Aktuelle PHP Scripte

EM 2012 Tipp-Spiel ansehen EM 2012 Tipp-Spiel

Online Tipp-Spiel zur Fussball Europameisterschaft 2012, basierend auf php-Script mit hinterlegter mySql-Datenbank

27.05.2012 tippimnetz | Kategorie: PHP/ Spiele
Advanced Login ansehen Advanced Login

Login-System und Kundenverwaltung, die sich spielend leicht in bestehende Webseiten einbauen lässt und einen enormen Funktionsumfang bietet. Ihre eigene Webseite muss mit Advanced Login nicht umständlich an ein fertiges System angepasst werden.

25.05.2012 Madden | Kategorie: PHP/ Kundenverwaltung
BROM CMS/BelCal 3 ansehen BROM CMS/BelCal 3

Spezielles CMS für Betreiber von Ferienwohnungen. Komplette Seitenerstellung online, Verwaltung mehrerer Objekte, Reservierungssystem mit sofortigem Abgleich im Belegungskalender und vieles mehr bietet dieses Content Management System.

25.05.2012 belcal2 | Kategorie: PHP/ CMS
 Alle PHP Scripte anzeigen

Alle Zeitangaben in WEZ +2. Es ist jetzt 11:53 Uhr.