HTML mit dom4j parsen?

Status
Nicht offen für weitere Antworten.

SaschaLR

Bekanntes Mitglied
Hallo,

wenn ich versuche einem freisch erzeugten SAXParser eine (beliebige) HTML-Datei zu geben bemängelt er so einiges (Fehlendes </META>, </BR>, </P> usw...)... ist an sich ja auch logisch.

Wie kann ich so ein "kaputtes" HTML-Dokument dennoch mit Hilfe von dom4j verarbeiten? Kann ihc da irgendwo eine Prüfung ausschalten ohne dass der Parser sich verrent oder einen "HTML-Modus" ktivieren oder ähnliches?

Oder gibt es wieder andere Libs mit denen ich das .html vor-formatieren muss?

Da es hier um unterschiedliche Seiten aus dem Netz geht habe ich leider auch keinen Einfluss auf die Einhaltung von Standards...

Gruss,
Sascha
 

Wildcard

Top Contributor
HTML ist kein XML, also kannst du keinen XML Parser verwenden. Nur xHTML ist auch XML, aber Webdesigner verstehen nun mal nicht, warum das besser sein sollte als das 'gute, alte HTML' :roll:
Du brauchst einen HTML Parser.
 

SaschaLR

Bekanntes Mitglied
Danke.

Hatte gehofft es gäbe das im XML-Parser so eine Art Weichei-Mode oder so...

Kann jemand einen komfortable HTML-Parser empfehlen? Möglichst nah an der API von dom4j?

Gruss,
Sascha
 
Status
Nicht offen für weitere Antworten.
Ähnliche Java Themen
  Titel Forum Antworten Datum
B JAXB und HTML XML & JSON 1
T HTML mit Hilfe Jsoup einlesen XML & JSON 11
C javascript in .html Funktioniert, in .xhtml nicht mehr XML & JSON 0
M parsen von realen HTML-WEB-Seiten XML & JSON 1
P HTML XPath XML & JSON 1
K Einlesen eines Parameters aus HTML-Datei XML & JSON 4
1 Html tabelle auslesen??? XML & JSON 6
Airwolf89 HTML Datei mit SAXBuilder laden hängt sich auf XML & JSON 4
K docBook XSLT: HTML Code Snippet in Erzeugte HTML Dokument einfügen XML & JSON 9
D Wie XML Datei einlesen und HTML entities übernehmen? XML & JSON 3
R Problem bei: XML und XSL zu HTML XML & JSON 2
T Möchte JSP Code in Attribut eines HTML Tags hinein generieren XML & JSON 3
slawaweis XML Prettyprinter zu HTML XML & JSON 3
S Typsicherer HTML-Parser XML & JSON 5
S HTML Parser XML & JSON 2
F Probleme beim html parsen mit tagsoup XML & JSON 4
M HTML Quellcode verarbeiten XML & JSON 4
J DOM zu HTML XML & JSON 3
S DOM Parsen Problem mit HTML Sonderzeichen XML & JSON 4
A aus xml --> html Problem XML & JSON 3
M HTML-Entities XML & JSON 4
M Suche HTML-API XML & JSON 3
G Servlet mittels XSL in HTML konvertieren XML & JSON 5
K html -> cyberneko -> xml -> jdom . XML & JSON 3
M TextContent eines XML-Elements enthält HTML-Tags . was nun XML & JSON 2
L mit Java eine HTML-Datei erstellen XML & JSON 3
B html->xslfo->pdf XML & JSON 5
G HTML in PDF umwandeln XML & JSON 9
P HTML Seite Parsen, und bestimmten Text extrahieren XML & JSON 3
J Exception bei "vorselektiertem" HTML XML & JSON 3
C HTML-Befehle per Java entfernen XML & JSON 7
P HTML-Sting in JDOM XML & JSON 7
G HTML -> XML XML & JSON 2
A html-File nach txt-File konvertieren XML & JSON 15
F XML Datei als HTML? XML & JSON 4
flashfactor HTML in XML XML & JSON 3
FsMarine HTML to PDF Konventieren XML & JSON 6
P HTML mit JDOM erstellen und in JEditorPane zeigen XML & JSON 4
B JDom + HTML XML & JSON 2
B DOM oder HTML File drucken "wie ein Browser es zeigen w XML & JSON 3
M dom4j detach funktioniert nicht XML & JSON 0
M dom4j unberechtigte Invalid XPath expression XML & JSON 12
F XPath-Problem mit DOM4J XML & JSON 8
T dom4j Kommentare XML & JSON 27
S mit dom4j einen dom teilweise kopieren? XML & JSON 4
Zed XML dom4j xsd- Eigenschaften/Validierung XML & JSON 3
L Anfänger: dom4j in Projekt einbinden XML & JSON 4
G java+xml mit dom4j XML & JSON 4
MiMa Buch Metadaten aus XML Datei parsen XML & JSON 48
S XML Document Parsen und Ausgeben mit Suchfunktion XML & JSON 21
MiMa parsen mit regex -> ein schnelles Ende XML & JSON 10
K Beim Parsen einer XML-Datei Connection timed out XML & JSON 4
F Parsen von Daten aus einer Homepage XML & JSON 6
G Langsam beim SAX-Parsen - woran liegts? XML & JSON 2
C Parsen des XML-Streams mit SAX XML & JSON 3
M XML Datei Parsen XML & JSON 4
D SAX parsen - Wie? XML & JSON 11
S XML Parsen und Werte zwischenspeichern XML & JSON 2
K Kurze XML Datei Parsen XML & JSON 5
whitenexx Problem beim parsen von Facebook XML XML & JSON 3
J Comments in XML parsen XML & JSON 3
H Nicht wohlgeformtes XML mit SAX parsen XML & JSON 2
M XML Parsen JDOM NullPointerEcxeption XML & JSON 7
Z XML parsen - Element mit Werten XML & JSON 2
ruutaiokwu xml nur bis auf eine bestimmte ebene parsen mit javax.xml... XML & JSON 5
L [SAX] Geschachtelte XML Datei parsen XML & JSON 3
R XML in UTF-8 mit SAX parsen XML & JSON 9
O Parsen einer XML mit JDOM ohne Doctype Declaration XML & JSON 2
M Probleme beim Parsen eines gefilterten XML-Dokuments XML & JSON 6
Semox Kann JUnit XML Parsen? XML & JSON 2
L Reihenfolge beim xml Datei parsen einhalten? XML & JSON 8
L xml Datei parsen ohne End-Tag XML & JSON 6
T RSS-Feed parsen und in Datenbank speichern XML & JSON 6
B XML parsen XML & JSON 3
H XML parsen und unbekannten Namespace zurückgeben XML & JSON 5
L invalide xml document parsen?! XML & JSON 2
ABstraCT XML properties am einfachsten parsen. XML & JSON 2
U xmi parsen über emf XML & JSON 10
S XML-Schema einlesen um parsen zu erleichtern? XML & JSON 2
T Problem beim Parsen von Attribut xmlns="urn:com:test&qu XML & JSON 6
P XMLGregorianCalender parsen XML & JSON 4
M Datei parsen XML & JSON 5
X XML File auslesen/parsen u. in ne Hashmap speichern XML & JSON 2
Saxony unbekannte XML Datei parsen und ausgeben XML & JSON 10
P "Formatierungs-Tags" parsen XML & JSON 3
M Attribute parsen XML & JSON 6
R Parsen einer XML ohne Validierung XML & JSON 2
D XML Datei innerhalb einer JAR Datei parsen XML & JSON 2
M Xerces -Parsen mit einer externen Schemadatei geht nicht XML & JSON 2
L bz2-Datei parsen XML & JSON 9
K XML parsen Whitespaces XML & JSON 2
I XML-String mit SAX parsen ? XML & JSON 2
M Object in XML parsen XML & JSON 2
byte Probleme beim Parsen von XHTML-Datei XML & JSON 4
X xml und xsl parsen mit xerces XML & JSON 8
W Xml-String parsen XML & JSON 2
W root element parsen,Hilfe! XML & JSON 5
F Gibt es Möglichkeiten Deutsche Sätze zu parsen ? XML & JSON 2
A Auf der Suche nach Bibliotheken oder wie parsen? XML & JSON 15
S XML Datei mit Schemafehler parsen XML & JSON 14

Ähnliche Java Themen

Neue Themen


Oben