Auch ganz nett, auch wenn es nicht unbedingt darauf abzielt was du suchst.
http://php-ids.org/
HTML-Cleaner?
Einklappen
X
-
Ich hab mir das noch gar nicht angeschaut - bin gerade erstmal den Rest am machen, weil ich diese Woche eigentlich fertig werden wollte... den Parser kann man hinterher immer noch austauschen~Original geschrieben von tontechniker
Sieht eigentlich ganz nett aus, es gibt Unittests und Objektorientiert ist es auch ... aber soviel Regex - ob das gut ist?
Aber ggf. geht dann halt etwas mehr Ressourcen für die Umwandlung und Sicherung des HTML-Inputs rein, das stört den Server relativ wenig und wenn das irgendwann wirklich zu einem Problem werden sollte, wird dieser interaktive Content noch locker vor dem Upload von Hunderten von Fotos kommen, die man dann mal einfach kappen kann :P
Vernünftiger Content auf einer Website ist nun doch irgendwie wichtiger als ein paar Tausend Fotos, die sich sowieso niemand komplett anschaut *zuck*
Aber von der Theorie her sieht das Projekt sehr gut aus ^^
Einen Kommentar schreiben:
-
Sieht eigentlich ganz nett aus, es gibt Unittests und Objektorientiert ist es auch ... aber soviel Regex - ob das gut ist?Das was du suchst könnte des hier sein: http://htmlpurifier.org/
Einen Kommentar schreiben:
-
Das was du suchst könnte des hier sein: http://htmlpurifier.org/
Wir setzen das Teil in produktiv Systemen ein. Theoretisch wäre auch das Implementieren eines Webservices sinnvoll wenn es auf mehreren Auftritten eingesetzt werden soll.
Einen Kommentar schreiben:
-
Ich versuche gerade jTidy für meine Zwecke dahingehend aufzubohren~
Ist leider alles gerade nicht ganz so einfach - was allein damit anfängt, dass mein größtes Projekt in Java bisher ein Parser-Bin-Baum war, den ich nur von Delphi portiert hab - und der Code ist auch nicht gerade etwas, was ich als "wunderbar" oder "vorbildlich" bezeichnen würde ... Kapselung unmöglich, weil die Klassen von außerhalb des packages praktisch unbenutzbar sind (die paar public-Methoden - das hätte man sich echt schenken können...) ja allein die Tatsache, dass die meisten (/alle?) Copyright-Hinweise nur bis zum Jahr 2000 reichen und ungefähr 300 Warnings allein wegen alter Coding-Stile kommen macht die Sache prekär _-_
Naja, mal später weiter gucken...
Einen Kommentar schreiben:
-
Eigentlich könnte man sowas doch recht einfach mit PHP / DOM realisieren. Die Frage ist ob man auch versucht den Code zu validieren (ist das über DOM überhaupt möglich?) oder dafür Tidy verwendet.
Einen Kommentar schreiben:
-
Ich würde auf jeden Fall was DOM-Basierendes empfehlen, das jedes Tag auseinandernimmt, wieder zusammenbaut und den Inhalt mit htmlentities kodiert. Einfache regexe kann man zu leicht mit irgendwelchen <SC\RIPT>-tricksereien täuschen, die am Ende dann doch vom Browser interpretiert werden.
Einen Kommentar schreiben:
-
Ne kannte ich auch nicht - ja an sowas in der Art dachte ich; nur halt kostenlos ^^;Original geschrieben von tontechniker
Im Prinzip fehlt nur eine passende Option für Tidy. Dort wird der DOM Baum sowieso durchgegangen. Hab gerade mal gesucht - hast du dir Detagger schon einmal angeschaut?
Einen Kommentar schreiben:
-
Im Prinzip fehlt nur eine passende Option für Tidy. Dort wird der DOM Baum sowieso durchgegangen. Hab gerade mal gesucht - hast du dir Detagger schon einmal angeschaut?Trotzdem finde ich es verwunderlich, dass dafür nirgends was fertiges existiert oo;Zuletzt geändert von tontechniker; 09.07.2007, 22:45.
Einen Kommentar schreiben:
-
Darauf wird es jetzt wohl auch hinaus laufen... da ich nicht endlos Zeit habe (bzw. eigentlich schon, das Projekt aber trotzdem endlich fertig kriegen will), nutze ich da eine bereits vorhandene Funktion in PHP für, die irgendeiner der anderen Programmierer mal genau für diesen Zweck geschrieben hat, und die setzt genau auf diese Kombination ^^Original geschrieben von tontechniker
einfacher ist aber wohl Tidy mit vorherigem entfernen von Events und Skript Tags.
Trotzdem finde ich es verwunderlich, dass dafür nirgends was fertiges existiert oo;
nyo~
Einen Kommentar schreiben:
-
vorher ist es aber evtl. nicht konform, deswegen wahsagas vorschlag.... einfacher ist aber wohl Tidy mit vorherigem entfernen von Events und Skript Tags.
Einen Kommentar schreiben:
-
Was bei Tidy rauskommt ist Standard konform - das sollte auch mit XHTML gehen. Schnell ist das aber keines Falls.Kann Tidy auch wohlgeformtes XHTML "erzeugen"?
Dom-Parser ist auch eine Idee, einfacher ist aber wohl Tidy mit vorherigem entfernen von Events und Skript Tags.
Einen Kommentar schreiben:
-
Für mich stellt sich da erst mal die Frage, ob man da mit preg rangehen will - oder nicht lieber mit einem DOM-Parser?
Kann Tidy auch wohlgeformtes XHTML "erzeugen"?
Dann würde ich da nachher drüberlaufen, und mit on beginnende Attribute rauslöschen.
Einen Kommentar schreiben:
-
Quick and Dirty:
Einfach alle Events mittels str_replace() mit 'x' ersetzen. So funzt garantiert kein JS mehr
Einen Kommentar schreiben:
-
<a href="/impressum/" onclick="window.location = 'http://www.google.de'">test</a>Original geschrieben von jahlives
Und einfach alles zwischen <script type="text/javascript" ... > und </script> entfernen ist nicht genug ?
Einen Kommentar schreiben:
Einen Kommentar schreiben: