HTML-Cleaner?

Schnoop antwortet

13.07.2007, 11:09
Auch ganz nett, auch wenn es nicht unbedingt darauf abzielt was du suchst.

http://php-ids.org/
Einen Kommentar schreiben:
ghostgambler antwortet

13.07.2007, 06:06
Original geschrieben von tontechniker
Sieht eigentlich ganz nett aus, es gibt Unittests und Objektorientiert ist es auch ... aber soviel Regex - ob das gut ist?

Ich hab mir das noch gar nicht angeschaut - bin gerade erstmal den Rest am machen, weil ich diese Woche eigentlich fertig werden wollte... den Parser kann man hinterher immer noch austauschen~

Aber ggf. geht dann halt etwas mehr Ressourcen für die Umwandlung und Sicherung des HTML-Inputs rein, das stört den Server relativ wenig und wenn das irgendwann wirklich zu einem Problem werden sollte, wird dieser interaktive Content noch locker vor dem Upload von Hunderten von Fotos kommen, die man dann mal einfach kappen kann :P
Vernünftiger Content auf einer Website ist nun doch irgendwie wichtiger als ein paar Tausend Fotos, die sich sowieso niemand komplett anschaut *zuck*
Aber von der Theorie her sieht das Projekt sehr gut aus ^^
Einen Kommentar schreiben:
tontechniker antwortet

12.07.2007, 23:44
Das was du suchst könnte des hier sein: http://htmlpurifier.org/

Sieht eigentlich ganz nett aus, es gibt Unittests und Objektorientiert ist es auch ... aber soviel Regex - ob das gut ist?
Einen Kommentar schreiben:
Schnoop antwortet

11.07.2007, 17:30
Das was du suchst könnte des hier sein: http://htmlpurifier.org/

Wir setzen das Teil in produktiv Systemen ein. Theoretisch wäre auch das Implementieren eines Webservices sinnvoll wenn es auf mehreren Auftritten eingesetzt werden soll.
Einen Kommentar schreiben:
ghostgambler antwortet

10.07.2007, 05:08
Ich versuche gerade jTidy für meine Zwecke dahingehend aufzubohren~
Ist leider alles gerade nicht ganz so einfach - was allein damit anfängt, dass mein größtes Projekt in Java bisher ein Parser-Bin-Baum war, den ich nur von Delphi portiert hab - und der Code ist auch nicht gerade etwas, was ich als "wunderbar" oder "vorbildlich" bezeichnen würde ... Kapselung unmöglich, weil die Klassen von außerhalb des packages praktisch unbenutzbar sind (die paar public-Methoden - das hätte man sich echt schenken können...) ja allein die Tatsache, dass die meisten (/alle?) Copyright-Hinweise nur bis zum Jahr 2000 reichen und ungefähr 300 Warnings allein wegen alter Coding-Stile kommen macht die Sache prekär _-_
Naja, mal später weiter gucken...
Einen Kommentar schreiben:
tontechniker antwortet

10.07.2007, 00:14
Eigentlich könnte man sowas doch recht einfach mit PHP / DOM realisieren. Die Frage ist ob man auch versucht den Code zu validieren (ist das über DOM überhaupt möglich?) oder dafür Tidy verwendet.
Einen Kommentar schreiben:
pekka antwortet

09.07.2007, 23:37
Ich würde auf jeden Fall was DOM-Basierendes empfehlen, das jedes Tag auseinandernimmt, wieder zusammenbaut und den Inhalt mit htmlentities kodiert. Einfache regexe kann man zu leicht mit irgendwelchen <SC\RIPT>-tricksereien täuschen, die am Ende dann doch vom Browser interpretiert werden.
Einen Kommentar schreiben:
ghostgambler antwortet

09.07.2007, 23:25
Original geschrieben von tontechniker
Im Prinzip fehlt nur eine passende Option für Tidy. Dort wird der DOM Baum sowieso durchgegangen. Hab gerade mal gesucht - hast du dir Detagger schon einmal angeschaut?

Ne kannte ich auch nicht - ja an sowas in der Art dachte ich; nur halt kostenlos ^^;
Einen Kommentar schreiben:
tontechniker antwortet

09.07.2007, 22:41
Trotzdem finde ich es verwunderlich, dass dafür nirgends was fertiges existiert oo;

Im Prinzip fehlt nur eine passende Option für Tidy. Dort wird der DOM Baum sowieso durchgegangen. Hab gerade mal gesucht - hast du dir Detagger schon einmal angeschaut?

Zuletzt geändert von tontechniker; 09.07.2007, 22:45.
Einen Kommentar schreiben:
ghostgambler antwortet

09.07.2007, 19:24
Original geschrieben von tontechniker
einfacher ist aber wohl Tidy mit vorherigem entfernen von Events und Skript Tags.

Darauf wird es jetzt wohl auch hinaus laufen... da ich nicht endlos Zeit habe (bzw. eigentlich schon, das Projekt aber trotzdem endlich fertig kriegen will), nutze ich da eine bereits vorhandene Funktion in PHP für, die irgendeiner der anderen Programmierer mal genau für diesen Zweck geschrieben hat, und die setzt genau auf diese Kombination ^^

Trotzdem finde ich es verwunderlich, dass dafür nirgends was fertiges existiert oo;
nyo~
Einen Kommentar schreiben:
penizillin antwortet

09.07.2007, 18:31
... einfacher ist aber wohl Tidy mit vorherigem entfernen von Events und Skript Tags.

vorher ist es aber evtl. nicht konform, deswegen wahsagas vorschlag.
Einen Kommentar schreiben:
tontechniker antwortet

09.07.2007, 16:07
Kann Tidy auch wohlgeformtes XHTML "erzeugen"?

Was bei Tidy rauskommt ist Standard konform - das sollte auch mit XHTML gehen. Schnell ist das aber keines Falls.
Dom-Parser ist auch eine Idee, einfacher ist aber wohl Tidy mit vorherigem entfernen von Events und Skript Tags.
Einen Kommentar schreiben:
wahsaga antwortet

09.07.2007, 14:31
Für mich stellt sich da erst mal die Frage, ob man da mit preg rangehen will - oder nicht lieber mit einem DOM-Parser?

Kann Tidy auch wohlgeformtes XHTML "erzeugen"?
Dann würde ich da nachher drüberlaufen, und mit on beginnende Attribute rauslöschen.
Einen Kommentar schreiben:
jahlives antwortet

09.07.2007, 13:58
Quick and Dirty:
Einfach alle Events mittels str_replace() mit 'x' ersetzen. So funzt garantiert kein JS mehr
Einen Kommentar schreiben:
ghostgambler antwortet

09.07.2007, 13:47
Original geschrieben von jahlives
Und einfach alles zwischen <script type="text/javascript" ... > und </script> entfernen ist nicht genug ?

<a href="/impressum/" onclick="window.location = 'http://www.google.de'">test</a>
Einen Kommentar schreiben:

Wird geladen... Bitte warte.

Einen Kommentar schreiben:

Einen Kommentar schreiben:

Einen Kommentar schreiben:

Einen Kommentar schreiben:

Einen Kommentar schreiben:

Einen Kommentar schreiben:

Einen Kommentar schreiben:

Einen Kommentar schreiben:

Einen Kommentar schreiben:

Einen Kommentar schreiben:

Einen Kommentar schreiben:

Einen Kommentar schreiben:

Einen Kommentar schreiben:

Einen Kommentar schreiben:

Einen Kommentar schreiben: