Probleme beim html parsen mit tagsoup

frag1get1free · 2. Jul 2010

Hallo,
ich versuche für ein Projekt Daten aus eine Homepage auszulesen.
Und zwar will ich zum einen ein paar Links auslesen zum anderen den Inhalt einer Tabelle. Wobei ich die richtigen Links sowie die richtige Tabelle an den class Attributen erkennen kann.
Mein Problem ist, dass die Seite wie so oft kein valides html beinhaltet. Das konkrete Problem das ich momentan habe sind "&" statt "&" in Links.
(Ich hab es erstmal naiv mit einem normalen SAXParser versucht, hab aber schnell gesehen, dass das Blödsinn ist

.)

Ich hab im Internet nach geeigneten Parsern gesucht und bin auf tagsoup (TagSoup home page) gestoßen.
Allerdings ist mir zum einen nicht klar mit welcher tagsoup SAXFeature ich verhindern kann, dass der beschriebene Fehler eine Exception wirft.
Zum anderen klappt das setzten von Features überhaupt nicht.

Der folgende Codeschnipsel zeigt, was ich in dem Abschnitt mache, der eine org.xml.sax.SAXNotRecognizedException für das entsprechende Feature schmeißt.

Java:

//ein InputStream "in" und ein DefaultHandler "handler" sind vorhanden...
SAXParserFactory parserFactory = SAXFactoryImpl.newInstance();
parserFactory.setFeature("http://www.ccil.org/~cowan/tagsoup/features/ignore-bogons", true);
SAXParser parser = parserFactory.newSAXParser();
parser.parse(in, handler);

Hat jemand eine Idee wie ich das hinbekommen? Ich selber habe leider kaum Erfahrung mit dem parsen von html und brauche das dringen für ein Uni Projekt.

Schonmal danke

.

Marco13 · 3. Jul 2010

Hm. Keine konkrete Lösung für dein Problem, aber ich bin auch gerade dabei, HTML zu zerpflücken, und fand den Jericho HTML Parser dafür ganz OK. Da sind auch ein paar Beispielprogramme dabei die man anpassen kann.

frag1get1free · 3. Jul 2010

Hi Marco13,
danke für den Hinweis. Ich habe mich jetzt für Regex entschieden, da ich mit damit wenigstens halbwegs auskenne.

M.L. · 4. Jul 2010

Regex

Darf man auch die Sprache Perl verwenden ? Dort ginge es u.a. mit dem Modul HTML::TableExtract
HTML mit REGEX bearbeiten stösst wg. der Vielzahl an zu beachtender Syntax schnell an seine Grenzen...

Marco13 · 4. Jul 2010

M.L. hat gesagt.:
HTML mit REGEX bearbeiten stösst wg. der Vielzahl an zu beachtender Syntax schnell an seine Grenzen...

Definitiv. Wenn man immer vom einfachsten Fall ausgehen kann...

Code:

<table>
    <tr><td>Hallo</td><td>Welt!</td></tr>
    <tr><td>Wallo</td><td>Held!</td></tr>
</table>

.... geht das vielleicht noch, aber spätestens wenn's mit div's, CSS und auch schon an sich harmlosen "width"-Angaben in den td's losgeht, kommt man mit RegEx nicht mehr weit.

frag1get1free hat gesagt.:
Hi Marco13,
Ich habe mich jetzt für Regex entschieden, da ich mit damit wenigstens halbwegs auskenne.

"Wenn das einzige Werkzeug, das man kennt, ein Hammer ist, scheint jedes Problem ein Nagel zu sein..."

	Titel	Forum	Antworten	Datum
N	Probleme bei der Formatierung beim Einfügen und löschen über DOM	XML & JSON	7	19. Apr 2018
L	Jackson JSON: Probleme beim einlesen	XML & JSON	1	27. Mai 2014
	Probleme beim Erstellen einer XML	XML & JSON	7	18. Aug 2010
M	Probleme beim Parsen eines gefilterten XML-Dokuments	XML & JSON	6	30. Jun 2010
H	JAXB Probleme beim Unmarshalling	XML & JSON	3	19. Mai 2010
S	Probleme beim erstellen einer Jar	XML & JSON	12	22. Okt 2008
C	SAX Probleme beim lesen	XML & JSON	4	12. Jul 2007
D	Probleme beim SAX parsing	XML & JSON	4	28. Mai 2007
	Probleme beim Parsen von XHTML-Datei	XML & JSON	4	20. Aug 2006
R	JAVA und DOM, probleme beim einfügen von elementen ??????	XML & JSON	6	26. Aug 2003
	Probleme mit XML XPATH Select	XML & JSON	3	29. Jun 2021
G	Probleme mit Jsoup in .jar File	XML & JSON	11	25. Sep 2016
K	JAX-WS Bindin-Probleme	XML & JSON	1	5. Dez 2015
B	Probleme mit RelativeLayout	XML & JSON	1	25. Aug 2014
K	XOM Builder Probleme	XML & JSON	3	6. Jul 2012
N	Jsoup: PHP-Tags bereiten Probleme?	XML & JSON	2	27. Feb 2012
M	SAX-Parsing Probleme	XML & JSON	23	1. Jan 2011
M	Probleme mit XPath bei Java	XML & JSON	5	26. Aug 2010
G	Probleme mit XML und JTree	XML & JSON	9	17. Mai 2009
	Probleme mit Codierung	XML & JSON	3	13. Apr 2009
T	XML und Sonderzeichen, Probleme mit ASP.NET Server	XML & JSON	2	18. Sep 2008
G	Probleme mit Namespaces	XML & JSON	5	18. Jun 2008
D	Probleme mit Eclipse Modeling Framework (EMF)	XML & JSON	2	3. Jun 2008
S	PDF Erzeugung - Probleme mit der XML Datei bei Schema-Infos	XML & JSON	2	28. Feb 2008
F	JAXB - Nachträglich hinzugefügter Code macht Probleme	XML & JSON	2	14. Jun 2007
P	Probleme mit JDom . addContent(int index,Collection c)	XML & JSON	2	19. Mrz 2007
F	Unmarshall Probleme	XML & JSON	5	15. Jan 2007
R	Probleme mit Transformer und StreamResult	XML & JSON	4	24. Apr 2006
C	Probleme mit Include	XML & JSON	10	15. Mrz 2006
C	POI + jXLS Probleme	XML & JSON	3	16. Feb 2006
B	DOM DTD laden abschalten, Probleme mit Doctypes und PIs	XML & JSON	2	30. Jan 2006
S	Probleme mit Jdom	XML & JSON	3	9. Okt 2005
G	probleme mit package	XML & JSON	12	5. Okt 2005
M	Probleme mit String	XML & JSON	3	20. Sep 2005
H	Probleme mit xmlrpc und php	XML & JSON	13	25. Jul 2005
B	Probleme mit Zugriff auf eXist-Datenbank	XML & JSON	9	8. Jun 2005
H	Neu bei JAVA- Probleme mit der Integration von Xerces	XML & JSON	3	11. Jan 2005
P	Probleme mit jdom	XML & JSON	5	9. Sep 2004
W	Ungleiches Escaping beim Marshalling	XML & JSON	8	5. Nov 2022
S	Hilfe beim RDF-Graphen	XML & JSON	0	15. Mai 2021
R	Beim Serialisieren fehlt die letzte Zeile	XML & JSON	5	6. Dez 2018
A	Leeres Array beim Auslesen von XML-Datei	XML & JSON	4	22. Jun 2016
A	XML-Fehler beim Prefix von xmlns	XML & JSON	2	13. Dez 2012
K	Beim Parsen einer XML-Datei Connection timed out	XML & JSON	4	13. Dez 2012
G	Langsam beim SAX-Parsen - woran liegts?	XML & JSON	2	28. Sep 2012
A	Fehler beim Erzeugen eines XML-Schema	XML & JSON	4	19. Mrz 2012
B	Validierung nur beim einlesen oder auch beim schreiben?	XML & JSON	4	13. Sep 2011
D	JAXBException beim Marshaller	XML & JSON	4	16. Jul 2011
M	Read / write Problem beim ByteStrom	XML & JSON	2	27. Jun 2011
	Problem beim parsen von Facebook XML	XML & JSON	3	23. Mai 2011
J	Dateinamen beim Start auslesen	XML & JSON	8	24. Nov 2010
F	Hilfe beim bearbeiten von XML elemente	XML & JSON	3	10. Nov 2010
N	XStream ConversionException beim Deserialisieren in (Hibernate)Objekt	XML & JSON	6	24. Sep 2010
G	Problem beim schreiben von XML in eine File	XML & JSON	2	17. Jun 2010
L	Reihenfolge beim xml Datei parsen einhalten?	XML & JSON	8	15. Jun 2010
	Beim Erzeugen einer XML Datei auch die XML Struktur erzeugen?	XML & JSON	11	15. Apr 2010
B	Problem beim löschen von ChildNodes aus einem XML-DOM	XML & JSON	3	12. Nov 2009
E	JDOM - Problem beim Zusammenfügen zweier Dateien	XML & JSON	2	15. Okt 2009
N	Hilfe beim Einstieg in EMF	XML & JSON	6	29. Jun 2009
D	Das Programm hängt etwa 5 Sekunden beim Aufruf der parse-Methode	XML & JSON	6	4. Jun 2009
D	Tabs/Einrückungen der XML-Elemente gehen beim Schreiben verloren	XML & JSON	5	4. Mrz 2009
T	Problem beim Parsen von Attribut xmlns="urn:com:test&qu	XML & JSON	6	15. Jan 2009
G	XML Tag beim Einlesen manipulieren	XML & JSON	2	8. Dez 2008
J	Problem beim XML-Lesen	XML & JSON	2	3. Dez 2008
N	jdom problem beim lesen von child elementen	XML & JSON	5	12. Jun 2008
P	NullPointerException beim Auslesen	XML & JSON	8	5. Mai 2008
M	Performance beim Binding	XML & JSON	2	12. Jan 2008
E	XOM setzen von XML-Schema declaration beim erzeugen XML-File	XML & JSON	2	27. Nov 2006
J	Fehler beim laden einer .xml	XML & JSON	3	12. Jul 2006
G	DOCTYPE Problem beim Transformer/TransformerFactory etc.	XML & JSON	13	3. Apr 2006
P	OutOfMemoryError beim Einlesen einer XML-Datei	XML & JSON	7	19. Sep 2005
P	Problem beim erstellen eines neuen Elements (JDOM)	XML & JSON	5	12. Sep 2005
S	JDOM-Kein indent beim XMLOutputter	XML & JSON	4	4. Sep 2005
C	Zeile herausfinden in der ein Fehler beim Einlesen entsteht	XML & JSON	3	24. Jun 2005
V	Datenverlust nach sortieren (nur beim serialisieren)	XML & JSON	4	29. Mrz 2005
S	Problem beim Erstellen eines pdfs	XML & JSON	3	29. Mrz 2005
R	Problem beim Auslesen von Attributen	XML & JSON	4	3. Nov 2004
B	JAXB und HTML	XML & JSON	1	21. Jun 2021
T	HTML mit Hilfe Jsoup einlesen	XML & JSON	11	30. Aug 2018
C	javascript in .html Funktioniert, in .xhtml nicht mehr	XML & JSON	0	23. Aug 2017
M	parsen von realen HTML-WEB-Seiten	XML & JSON	1	15. Nov 2016
P	HTML XPath	XML & JSON	1	22. Jul 2014
K	Einlesen eines Parameters aus HTML-Datei	XML & JSON	4	6. Mrz 2012
1	Html tabelle auslesen???	XML & JSON	6	4. Jan 2012
	HTML Datei mit SAXBuilder laden hängt sich auf	XML & JSON	4	29. Okt 2011
K	docBook XSLT: HTML Code Snippet in Erzeugte HTML Dokument einfügen	XML & JSON	9	12. Okt 2011
D	Wie XML Datei einlesen und HTML entities übernehmen?	XML & JSON	3	14. Sep 2011
R	Problem bei: XML und XSL zu HTML	XML & JSON	2	22. Aug 2011
T	Möchte JSP Code in Attribut eines HTML Tags hinein generieren	XML & JSON	3	17. Jul 2011
	XML Prettyprinter zu HTML	XML & JSON	3	24. Feb 2011
S	Typsicherer HTML-Parser	XML & JSON	5	8. Feb 2011
S	HTML Parser	XML & JSON	2	19. Dez 2010
M	HTML Quellcode verarbeiten	XML & JSON	4	17. Aug 2009
J	DOM zu HTML	XML & JSON	3	16. Jul 2009
S	DOM Parsen Problem mit HTML Sonderzeichen	XML & JSON	4	4. Jul 2009
A	aus xml --> html Problem	XML & JSON	3	16. Jun 2009
M	HTML-Entities	XML & JSON	4	13. Apr 2009
M	Suche HTML-API	XML & JSON	3	18. Mrz 2009
G	Servlet mittels XSL in HTML konvertieren	XML & JSON	5	3. Sep 2008
K	html -> cyberneko -> xml -> jdom .	XML & JSON	3	8. Mai 2008

Probleme beim html parsen mit tagsoup

frag1get1free

Mitglied

Marco13

Top Contributor

frag1get1free

Mitglied

M.L.

Top Contributor

Marco13

Top Contributor

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen