Auch ganz nett, auch wenn es nicht unbedingt darauf abzielt was du suchst.
http://php-ids.org/
HTML-Cleaner?
Einklappen
X
-
Original geschrieben von tontechniker
Sieht eigentlich ganz nett aus, es gibt Unittests und Objektorientiert ist es auch ... aber soviel Regex - ob das gut ist?
Aber ggf. geht dann halt etwas mehr Ressourcen für die Umwandlung und Sicherung des HTML-Inputs rein, das stört den Server relativ wenig und wenn das irgendwann wirklich zu einem Problem werden sollte, wird dieser interaktive Content noch locker vor dem Upload von Hunderten von Fotos kommen, die man dann mal einfach kappen kann :P
Vernünftiger Content auf einer Website ist nun doch irgendwie wichtiger als ein paar Tausend Fotos, die sich sowieso niemand komplett anschaut *zuck*
Aber von der Theorie her sieht das Projekt sehr gut aus ^^
Einen Kommentar schreiben:
-
Das was du suchst könnte des hier sein: http://htmlpurifier.org/
Einen Kommentar schreiben:
-
Das was du suchst könnte des hier sein: http://htmlpurifier.org/
Wir setzen das Teil in produktiv Systemen ein. Theoretisch wäre auch das Implementieren eines Webservices sinnvoll wenn es auf mehreren Auftritten eingesetzt werden soll.
Einen Kommentar schreiben:
-
Ich versuche gerade jTidy für meine Zwecke dahingehend aufzubohren~
Ist leider alles gerade nicht ganz so einfach - was allein damit anfängt, dass mein größtes Projekt in Java bisher ein Parser-Bin-Baum war, den ich nur von Delphi portiert hab - und der Code ist auch nicht gerade etwas, was ich als "wunderbar" oder "vorbildlich" bezeichnen würde ... Kapselung unmöglich, weil die Klassen von außerhalb des packages praktisch unbenutzbar sind (die paar public-Methoden - das hätte man sich echt schenken können...) ja allein die Tatsache, dass die meisten (/alle?) Copyright-Hinweise nur bis zum Jahr 2000 reichen und ungefähr 300 Warnings allein wegen alter Coding-Stile kommen macht die Sache prekär _-_
Naja, mal später weiter gucken...
Einen Kommentar schreiben:
-
Eigentlich könnte man sowas doch recht einfach mit PHP / DOM realisieren. Die Frage ist ob man auch versucht den Code zu validieren (ist das über DOM überhaupt möglich?) oder dafür Tidy verwendet.
Einen Kommentar schreiben:
-
Ich würde auf jeden Fall was DOM-Basierendes empfehlen, das jedes Tag auseinandernimmt, wieder zusammenbaut und den Inhalt mit htmlentities kodiert. Einfache regexe kann man zu leicht mit irgendwelchen <SC\RIPT>-tricksereien täuschen, die am Ende dann doch vom Browser interpretiert werden.
Einen Kommentar schreiben:
-
Original geschrieben von tontechniker
Im Prinzip fehlt nur eine passende Option für Tidy. Dort wird der DOM Baum sowieso durchgegangen. Hab gerade mal gesucht - hast du dir Detagger schon einmal angeschaut?
Einen Kommentar schreiben:
-
Trotzdem finde ich es verwunderlich, dass dafür nirgends was fertiges existiert oo;Zuletzt geändert von tontechniker; 09.07.2007, 22:45.
Einen Kommentar schreiben:
-
Original geschrieben von tontechniker
einfacher ist aber wohl Tidy mit vorherigem entfernen von Events und Skript Tags.
Trotzdem finde ich es verwunderlich, dass dafür nirgends was fertiges existiert oo;
nyo~
Einen Kommentar schreiben:
-
... einfacher ist aber wohl Tidy mit vorherigem entfernen von Events und Skript Tags.
Einen Kommentar schreiben:
-
Kann Tidy auch wohlgeformtes XHTML "erzeugen"?
Dom-Parser ist auch eine Idee, einfacher ist aber wohl Tidy mit vorherigem entfernen von Events und Skript Tags.
Einen Kommentar schreiben:
-
Für mich stellt sich da erst mal die Frage, ob man da mit preg rangehen will - oder nicht lieber mit einem DOM-Parser?
Kann Tidy auch wohlgeformtes XHTML "erzeugen"?
Dann würde ich da nachher drüberlaufen, und mit on beginnende Attribute rauslöschen.
Einen Kommentar schreiben:
-
Quick and Dirty:
Einfach alle Events mittels str_replace() mit 'x' ersetzen. So funzt garantiert kein JS mehr
Einen Kommentar schreiben:
-
Original geschrieben von jahlives
Und einfach alles zwischen <script type="text/javascript" ... > und </script> entfernen ist nicht genug ?
Einen Kommentar schreiben:
Einen Kommentar schreiben: