Hi,
folgendes Problem: Ich versuche eine besondere HTML-Datei mit JDOM einzulesen, aber der Parser (sowohl JAXP als auch Xerces getestet) wirft ne Fehlermeldung:
Die HTML-Dateien sehen in etwa wie folgt aus:
Ich habe keinen Einfluss auf diese Dateien, muss aber bestimmte Sachen ändern (Image Tags im Body entfernen bzw. ändern). Gibt es eine Lösung für das Problem, so dass ich die Dateien eingelesen bekomme mit JDOM? Ansonsten müsste ich die Änderungen manuell machen, indem ich das Ganze mit nem Reader einlese, doch das wäre ziemlich umständlich, weil diese HTML-Dateien keine vernünftige Formatierung haben (Linebreaks fehlen).
Danke im Voraus...
folgendes Problem: Ich versuche eine besondere HTML-Datei mit JDOM einzulesen, aber der Parser (sowohl JAXP als auch Xerces getestet) wirft ne Fehlermeldung:
Code:
Unconvertible UTF-8 character beginning with 0x96
Die HTML-Dateien sehen in etwa wie folgt aus:
Code:
<?xml version="1.0"?><html xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation='document.xsd'><head><title></title><style type="text/css">
td { vertical-align:top; }
</style></head><body><table ...>...</table></body></html>
Ich habe keinen Einfluss auf diese Dateien, muss aber bestimmte Sachen ändern (Image Tags im Body entfernen bzw. ändern). Gibt es eine Lösung für das Problem, so dass ich die Dateien eingelesen bekomme mit JDOM? Ansonsten müsste ich die Änderungen manuell machen, indem ich das Ganze mit nem Reader einlese, doch das wäre ziemlich umständlich, weil diese HTML-Dateien keine vernünftige Formatierung haben (Linebreaks fehlen).
Danke im Voraus...