Probleme beim html parsen mit tagsoup

Hallo,
ich versuche für ein Projekt Daten aus eine Homepage auszulesen.
Und zwar will ich zum einen ein paar Links auslesen zum anderen den Inhalt einer Tabelle. Wobei ich die richtigen Links sowie die richtige Tabelle an den class Attributen erkennen kann.
Mein Problem ist, dass die Seite wie so oft kein valides html beinhaltet. Das konkrete Problem das ich momentan habe sind "&" statt "&" in Links.
(Ich hab es erstmal naiv mit einem normalen SAXParser versucht, hab aber schnell gesehen, dass das Blödsinn ist ;).)


Ich hab im Internet nach geeigneten Parsern gesucht und bin auf tagsoup (TagSoup home page) gestoßen.
Allerdings ist mir zum einen nicht klar mit welcher tagsoup SAXFeature ich verhindern kann, dass der beschriebene Fehler eine Exception wirft.
Zum anderen klappt das setzten von Features überhaupt nicht.

Der folgende Codeschnipsel zeigt, was ich in dem Abschnitt mache, der eine org.xml.sax.SAXNotRecognizedException für das entsprechende Feature schmeißt.
Java:
//ein InputStream "in" und ein DefaultHandler "handler" sind vorhanden...
SAXParserFactory parserFactory = SAXFactoryImpl.newInstance();
parserFactory.setFeature("http://www.ccil.org/~cowan/tagsoup/features/ignore-bogons", true);
SAXParser parser = parserFactory.newSAXParser();
parser.parse(in, handler);

Hat jemand eine Idee wie ich das hinbekommen? Ich selber habe leider kaum Erfahrung mit dem parsen von html und brauche das dringen für ein Uni Projekt.

Schonmal danke :).
 

Marco13

Top Contributor
Hm. Keine konkrete Lösung für dein Problem, aber ich bin auch gerade dabei, HTML zu zerpflücken, und fand den Jericho HTML Parser dafür ganz OK. Da sind auch ein paar Beispielprogramme dabei die man anpassen kann.
 

Marco13

Top Contributor
HTML mit REGEX bearbeiten stösst wg. der Vielzahl an zu beachtender Syntax schnell an seine Grenzen...

Definitiv. Wenn man immer vom einfachsten Fall ausgehen kann...
Code:
<table>
    <tr><td>Hallo</td><td>Welt!</td></tr>
    <tr><td>Wallo</td><td>Held!</td></tr>
</table>
.... geht das vielleicht noch, aber spätestens wenn's mit div's, CSS und auch schon an sich harmlosen "width"-Angaben in den td's losgeht, kommt man mit RegEx nicht mehr weit.


Hi Marco13,
Ich habe mich jetzt für Regex entschieden, da ich mit damit wenigstens halbwegs auskenne.

"Wenn das einzige Werkzeug, das man kennt, ein Hammer ist, scheint jedes Problem ein Nagel zu sein..." ;)
 
Ähnliche Java Themen
  Titel Forum Antworten Datum
N Probleme bei der Formatierung beim Einfügen und löschen über DOM XML & JSON 7
L Jackson JSON: Probleme beim einlesen XML & JSON 1
hdi Probleme beim Erstellen einer XML XML & JSON 7
M Probleme beim Parsen eines gefilterten XML-Dokuments XML & JSON 6
H JAXB Probleme beim Unmarshalling XML & JSON 3
S Probleme beim erstellen einer Jar XML & JSON 12
C SAX Probleme beim lesen XML & JSON 4
D Probleme beim SAX parsing XML & JSON 4
byte Probleme beim Parsen von XHTML-Datei XML & JSON 4
R JAVA und DOM, probleme beim einfügen von elementen ?????? XML & JSON 6
Kirby.exe Probleme mit XML XPATH Select XML & JSON 3
G Probleme mit Jsoup in .jar File XML & JSON 11
K JAX-WS Bindin-Probleme XML & JSON 1
B Probleme mit RelativeLayout XML & JSON 1
K XOM Builder Probleme XML & JSON 3
N Jsoup: PHP-Tags bereiten Probleme? XML & JSON 2
M SAX-Parsing Probleme XML & JSON 23
M Probleme mit XPath bei Java XML & JSON 5
G Probleme mit XML und JTree XML & JSON 9
klattiator Probleme mit Codierung XML & JSON 3
T XML und Sonderzeichen, Probleme mit ASP.NET Server XML & JSON 2
G Probleme mit Namespaces XML & JSON 5
D Probleme mit Eclipse Modeling Framework (EMF) XML & JSON 2
S PDF Erzeugung - Probleme mit der XML Datei bei Schema-Infos XML & JSON 2
F JAXB - Nachträglich hinzugefügter Code macht Probleme XML & JSON 2
P Probleme mit JDom . addContent(int index,Collection c) XML & JSON 2
F Unmarshall Probleme XML & JSON 5
R Probleme mit Transformer und StreamResult XML & JSON 4
C Probleme mit Include XML & JSON 10
C POI + jXLS Probleme XML & JSON 3
B DOM DTD laden abschalten, Probleme mit Doctypes und PIs XML & JSON 2
S Probleme mit Jdom XML & JSON 3
G probleme mit package XML & JSON 12
M Probleme mit String XML & JSON 3
H Probleme mit xmlrpc und php XML & JSON 13
B Probleme mit Zugriff auf eXist-Datenbank XML & JSON 9
H Neu bei JAVA- Probleme mit der Integration von Xerces XML & JSON 3
P Probleme mit jdom XML & JSON 5
W Ungleiches Escaping beim Marshalling XML & JSON 8
S Hilfe beim RDF-Graphen XML & JSON 0
R Beim Serialisieren fehlt die letzte Zeile XML & JSON 5
A Leeres Array beim Auslesen von XML-Datei XML & JSON 4
A XML-Fehler beim Prefix von xmlns XML & JSON 2
K Beim Parsen einer XML-Datei Connection timed out XML & JSON 4
G Langsam beim SAX-Parsen - woran liegts? XML & JSON 2
A Fehler beim Erzeugen eines XML-Schema XML & JSON 4
B Validierung nur beim einlesen oder auch beim schreiben? XML & JSON 4
D JAXBException beim Marshaller XML & JSON 4
M Read / write Problem beim ByteStrom XML & JSON 2
whitenexx Problem beim parsen von Facebook XML XML & JSON 3
J Dateinamen beim Start auslesen XML & JSON 8
F Hilfe beim bearbeiten von XML elemente XML & JSON 3
N XStream ConversionException beim Deserialisieren in (Hibernate)Objekt XML & JSON 6
G Problem beim schreiben von XML in eine File XML & JSON 2
L Reihenfolge beim xml Datei parsen einhalten? XML & JSON 8
sylo Beim Erzeugen einer XML Datei auch die XML Struktur erzeugen? XML & JSON 11
B Problem beim löschen von ChildNodes aus einem XML-DOM XML & JSON 3
E JDOM - Problem beim Zusammenfügen zweier Dateien XML & JSON 2
N Hilfe beim Einstieg in EMF XML & JSON 6
D Das Programm hängt etwa 5 Sekunden beim Aufruf der parse-Methode XML & JSON 6
D Tabs/Einrückungen der XML-Elemente gehen beim Schreiben verloren XML & JSON 5
T Problem beim Parsen von Attribut xmlns="urn:com:test&qu XML & JSON 6
G XML Tag beim Einlesen manipulieren XML & JSON 2
J Problem beim XML-Lesen XML & JSON 2
N jdom problem beim lesen von child elementen XML & JSON 5
P NullPointerException beim Auslesen XML & JSON 8
M Performance beim Binding XML & JSON 2
E XOM setzen von XML-Schema declaration beim erzeugen XML-File XML & JSON 2
J Fehler beim laden einer .xml XML & JSON 3
G DOCTYPE Problem beim Transformer/TransformerFactory etc. XML & JSON 13
P OutOfMemoryError beim Einlesen einer XML-Datei XML & JSON 7
P Problem beim erstellen eines neuen Elements (JDOM) XML & JSON 5
S JDOM-Kein indent beim XMLOutputter XML & JSON 4
C Zeile herausfinden in der ein Fehler beim Einlesen entsteht XML & JSON 3
V Datenverlust nach sortieren (nur beim serialisieren) XML & JSON 4
S Problem beim Erstellen eines pdfs XML & JSON 3
R Problem beim Auslesen von Attributen XML & JSON 4
B JAXB und HTML XML & JSON 1
T HTML mit Hilfe Jsoup einlesen XML & JSON 11
C javascript in .html Funktioniert, in .xhtml nicht mehr XML & JSON 0
M parsen von realen HTML-WEB-Seiten XML & JSON 1
P HTML XPath XML & JSON 1
K Einlesen eines Parameters aus HTML-Datei XML & JSON 4
1 Html tabelle auslesen??? XML & JSON 6
Airwolf89 HTML Datei mit SAXBuilder laden hängt sich auf XML & JSON 4
K docBook XSLT: HTML Code Snippet in Erzeugte HTML Dokument einfügen XML & JSON 9
D Wie XML Datei einlesen und HTML entities übernehmen? XML & JSON 3
R Problem bei: XML und XSL zu HTML XML & JSON 2
T Möchte JSP Code in Attribut eines HTML Tags hinein generieren XML & JSON 3
slawaweis XML Prettyprinter zu HTML XML & JSON 3
S Typsicherer HTML-Parser XML & JSON 5
S HTML Parser XML & JSON 2
M HTML Quellcode verarbeiten XML & JSON 4
J DOM zu HTML XML & JSON 3
S DOM Parsen Problem mit HTML Sonderzeichen XML & JSON 4
A aus xml --> html Problem XML & JSON 3
M HTML-Entities XML & JSON 4
M Suche HTML-API XML & JSON 3
G Servlet mittels XSL in HTML konvertieren XML & JSON 5
K html -> cyberneko -> xml -> jdom . XML & JSON 3

Ähnliche Java Themen

Neue Themen


Oben