Hallo,
wenn ich versuche einem freisch erzeugten SAXParser eine (beliebige) HTML-Datei zu geben bemängelt er so einiges (Fehlendes </META>, </BR>, </P> usw...)... ist an sich ja auch logisch.
Wie kann ich so ein "kaputtes" HTML-Dokument dennoch mit Hilfe von dom4j verarbeiten? Kann ihc da irgendwo eine Prüfung ausschalten ohne dass der Parser sich verrent oder einen "HTML-Modus" ktivieren oder ähnliches?
Oder gibt es wieder andere Libs mit denen ich das .html vor-formatieren muss?
Da es hier um unterschiedliche Seiten aus dem Netz geht habe ich leider auch keinen Einfluss auf die Einhaltung von Standards...
Gruss,
Sascha
wenn ich versuche einem freisch erzeugten SAXParser eine (beliebige) HTML-Datei zu geben bemängelt er so einiges (Fehlendes </META>, </BR>, </P> usw...)... ist an sich ja auch logisch.
Wie kann ich so ein "kaputtes" HTML-Dokument dennoch mit Hilfe von dom4j verarbeiten? Kann ihc da irgendwo eine Prüfung ausschalten ohne dass der Parser sich verrent oder einen "HTML-Modus" ktivieren oder ähnliches?
Oder gibt es wieder andere Libs mit denen ich das .html vor-formatieren muss?
Da es hier um unterschiedliche Seiten aus dem Netz geht habe ich leider auch keinen Einfluss auf die Einhaltung von Standards...
Gruss,
Sascha