HTML => DOM - Welcher Parser für meine Zwecke?

Skymax86 · 7. Jan 2011

Hallo liebe Leute

Folgendes Problem stellt sich mir derzeit: Ich soll im Rahmen eines Projekts die DOM Trees einer beliebigen Webpage inklusive Unterseiten (DiePresse.com, derStandard.at etc.) in Java speichern bzw. mittels Algorithmus bearbeiten können. (Die DOM-Trees der Hauptseite und der Unterseiten sollen miteinander verglichen werden und dann relevanter Content mittels SST-Algorithmus extrahiert werden)

Welcher Parser wäre hierzu am besten geeignet? Da viele Seiten wohl kaum besonders XML-konform sein werden brauche ich also einen relativ fehlertoleranten HTML-Parser, und wie komme ich von da ausgehend zum DOM-Tree?

Hat da jemand Beispiele oder Tipps für mich? - ich habe jetzt einige Monate kaum programmiert und bin dahingehend etwas eingerostet..

lg Markus

Marco13 · 7. Jan 2011

Es gibt hunderte von HTML Parsern. Ich hatte da mal eine Weile gesucht, und war mit allen mehr oder weniger unzufrieden, aber bei Jericho HTML Parser hat meine Suche dann geendet. Das heißt aber NUR, dass der für das was ICH machen wollte, OK war, und NICHT, dass nicht nicht nachher noch einen VIIEEEEL besseren hätte finden können

EDIT: Falls der Algorithmus irgenwas wirklich Baumstruckturspezifisches ist (also wirklich den DOM braucht) ist er aber vermutlich nicht so geeignet. Er baut nicht wirklich einen Baum. Aber ich hatte vielleicht bei SST etwas falsches im Kopf, und jetzt nichts genaueres dazu gefunden...

Skymax86 · 8. Jan 2011

ja, der DOM-Tree wär schon sehr sehr wichtig, ich muss nämlich aus den DOM-Trees nachher mittels Algorithmus den Site Style Tree bestimmen der sich wiederrum großteils aus Gemeinsamkeiten der DOM-Trees zusammensetzt..

Marco13 · 8. Jan 2011

Naja, die Bibliothek bietet schon Möglichkeiten, aus dem gelesenen einen Baum zu bauen, klar, aber wenn es speziell und "nur" um einen Baum geht, gibt es vielleicht(!) geeignetere. Ich fand an Jericho halt die Robustheit gut, und die Nähe zum HTML-Code - man kann sehr viele Informationen über den echten, zugrundeliegenden HTML Code bekommen. Bei komplett DOM-orientierten Parsern kann es halt leicht passieren, dass es sie beim geringsten Fehler in einem Tag raushaut, und der Baum nur noch "Müll" enthält (die wenigsten Webseiten enthalten in diesem Sinne "perfektes" HTML). Aber vielleicht hat ja noch jemand eine konkrete Empfehlung zu einen rein DOM-basierten Parser...

	Titel	Forum	Antworten	Datum
O	Mit jsoup Text aus HTML-Datei rausgrabben	Allgemeine Java-Themen	29	2. Jul 2024
S	Bookmark HTML Datei einlesen, alle Links erhalten und manche editieren..? (aktuell JSoup)	Allgemeine Java-Themen	4	7. Jul 2022
S	HTML einer Webseite 1:1 so bekommen wie es auch der Browser anzeigt?	Allgemeine Java-Themen	14	30. Jun 2022
C	Parsen einer sich updatenden Html mithilfe von jsoup	Allgemeine Java-Themen	4	27. Jan 2022
I	HTML / XHTML Seite nach Excel exportieren. Suche Lib	Allgemeine Java-Themen	12	30. Jul 2021
F	Kennt ihr eine Library um 2 HTML Seiten zu diffen?	Allgemeine Java-Themen	8	20. Jul 2021
K	HTMLEditor HTML Text in Rich Text umwandeln	Allgemeine Java-Themen	14	5. Apr 2021
N	Value Wert aus HTML-Button mittels thymeleaf spring an java übergeben	Allgemeine Java-Themen	2	26. Nov 2020
N	Lottowebsite programmieren mittels Java, HTML,....	Allgemeine Java-Themen	7	25. Nov 2020
S	HTML den ich von einer URL hole nicht identisch mit dem HTML im Browser	Allgemeine Java-Themen	1	3. Apr 2020
M	Html Seite auslesen	Allgemeine Java-Themen	16	16. Sep 2018
	Website HTML Code von HTTPS URL laden	Allgemeine Java-Themen	0	13. Okt 2017
L	HTML Formular ausführen	Allgemeine Java-Themen	1	29. Jul 2017
J	Auslesen Daten Java/HTML	Allgemeine Java-Themen	15	12. Dez 2016
A	Applet in HTML einbinden	Allgemeine Java-Themen	1	16. Nov 2016
	JSoup - HTML Tag entfernen	Allgemeine Java-Themen	1	30. Sep 2016
I	HTML einer Website auslesen liefert nur head	Allgemeine Java-Themen	6	3. Mai 2016
	HTML Code decodieren	Allgemeine Java-Themen	2	22. Mrz 2016
	Mehrere html seiten einer Homepage einlesen und als Textdatei ausgeben	Allgemeine Java-Themen	14	23. Aug 2015
P	HTML Text bearbeiten	Allgemeine Java-Themen	1	28. Okt 2014
A	Probleme beim auslesen von Quelltext (HTML)	Allgemeine Java-Themen	5	25. Mai 2014
	String aus html einlesen	Allgemeine Java-Themen	2	20. Apr 2014
	Substring einer HTML Seite will nicht	Allgemeine Java-Themen	5	16. Mrz 2014
S	Applet in html laden; InvocationTargetException,.. nur warum ?	Allgemeine Java-Themen	0	29. Jan 2014
R	HTML Tabelle durchsuchen	Allgemeine Java-Themen	3	10. Jan 2014
L	Erste Schritte Eclipse und Lokal funktioniert - in HTML nicht!	Allgemeine Java-Themen	2	5. Feb 2013
T	Keyword Highlighting in HTML	Allgemeine Java-Themen	5	9. Jan 2013
B	Best Practice HTML Output Optimal implementieren	Allgemeine Java-Themen	3	7. Jan 2013
A	jEditorPane Html Datei öffnen (code)	Allgemeine Java-Themen	3	18. Dez 2012
Y	Applet/Html - Wie Java-Methode aufrufen, die einen Parameter erwartet?	Allgemeine Java-Themen	3	21. Nov 2012
H	HTML Parsing errors	Allgemeine Java-Themen	9	16. Okt 2012
P	Aktuellen HTML Code auslesen (von JS manipuliert)	Allgemeine Java-Themen	3	8. Okt 2012
M	HTML-Code von Webseite über Browser oder Console auslesen??	Allgemeine Java-Themen	5	2. Sep 2012
S	Robuste Methode um Text von HTML code zu extrahieren..?	Allgemeine Java-Themen	6	27. Jul 2012
S	Bekomme mit Scanner und URL keine Html-Seite ausgelesen	Allgemeine Java-Themen	3	12. Jun 2012
C	JEditorPane langsam großes HTML	Allgemeine Java-Themen	8	10. Mai 2012
M	html aus aktuellem Browserfenster mitlesen lassen	Allgemeine Java-Themen	5	9. Apr 2012
G	Kann HTML Datei nicht lesen	Allgemeine Java-Themen	3	4. Apr 2012
S	HTML-Quelltext nach bestimmter Stelle durchsuchen	Allgemeine Java-Themen	2	27. Mrz 2012
B	HTML Tags in Strings umwandeln	Allgemeine Java-Themen	4	24. Mrz 2012
S	BufferedReader/PrintWriter an einer HTML	Allgemeine Java-Themen	6	19. Feb 2012
T	HTML Tag Position mittels Pattern ermitteln	Allgemeine Java-Themen	7	8. Feb 2012
C	Attribute aus HTML Tags auslesen	Allgemeine Java-Themen	6	18. Jan 2012
M	Wicket Html	Allgemeine Java-Themen	2	16. Jan 2012
S	Fehler beim ausführen des HTML	Allgemeine Java-Themen	7	15. Jan 2012
S	Fehler Applet-HTML	Allgemeine Java-Themen	5	14. Jan 2012
B	suchfunktion in html integrieren	Allgemeine Java-Themen	3	30. Nov 2011
	Wieso ist Javadoc mit Html Tags?	Allgemeine Java-Themen	47	4. Sep 2011
P	RegEx mit HTML Parser für Java möglich?	Allgemeine Java-Themen	10	6. Jul 2011
B	RTF zu HTML	Allgemeine Java-Themen	3	4. Jul 2011
S	Von HTML-Seite den Titel bekommen	Allgemeine Java-Themen	2	29. Jun 2011
M	.jar in HTML einbinden	Allgemeine Java-Themen	5	12. Jun 2011
H	Kleiner HTML Parser (Facharbeit)	Allgemeine Java-Themen	11	8. Jun 2011
K	iText, HTML Einrückung im Document, aber nicht im Paragraph	Allgemeine Java-Themen	3	4. Jun 2011
J	Überprüfen ob URL eine HTML Datei referenziert	Allgemeine Java-Themen	4	1. Jun 2011
E	Zeilenumbruch html	Allgemeine Java-Themen	3	12. Mai 2011
J	URLs aus HTML Datei extrahieren	Allgemeine Java-Themen	2	14. Apr 2011
G	Swing JEditorPaneAppender (Output im HTML-Format)	Allgemeine Java-Themen	12	14. Apr 2011
W	Java Anwendung in HTML	Allgemeine Java-Themen	2	22. Feb 2011
M	Html Unit Whitespace-Problem	Allgemeine Java-Themen	4	8. Feb 2011
J	HTML-Sonderzeichen ersetzen	Allgemeine Java-Themen	2	6. Feb 2011
M	HTML-Websiten verarbeiten	Allgemeine Java-Themen	8	17. Jan 2011
A	Index Datei aus HTML-Dateien	Allgemeine Java-Themen	7	8. Jan 2011
I	HTML Seite laden	Allgemeine Java-Themen	6	8. Nov 2010
W	Saubere Lösung für das Auslesen einer Html Seite (Mehrsprachigkeit)	Allgemeine Java-Themen	5	15. Okt 2010
M	String in Html Text umwandeln	Allgemeine Java-Themen	2	25. Sep 2010
S	Formatierungen aus HTML-Dokument übernehmen und in Word docx schreiben	Allgemeine Java-Themen	3	8. Sep 2010
E	HTML File mit Umlaute einlesen	Allgemeine Java-Themen	8	3. Sep 2010
T	HTML Parser	Allgemeine Java-Themen	7	1. Sep 2010
E	Regex HTML Tag und Inhalt löschen	Allgemeine Java-Themen	4	11. Aug 2010
S	Swing mit JEditorPane per HTML auf Bilder in JAR zugreifen.	Allgemeine Java-Themen	3	27. Jul 2010
S	Regulärer Ausdruck für HTML-Tag	Allgemeine Java-Themen	18	27. Jul 2010
H	Java Methode zum HTML encodieren/decodieren	Allgemeine Java-Themen	2	24. Jun 2010
	Bug in Copy-Funktion bei HTML-Editorpane?	Allgemeine Java-Themen	4	17. Mai 2010
M	JApplet einbinden in HTML	Allgemeine Java-Themen	19	3. Mai 2010
F	Problem mit regulären Ausdruck in Zusammenhang mit HTML	Allgemeine Java-Themen	8	7. Apr 2010
T	JavaScript aus HTML im JEditorPane ausführen?	Allgemeine Java-Themen	5	11. Mrz 2010
S	PDF nach HTML oder XML	Allgemeine Java-Themen	2	8. Mrz 2010
O	Tastendrücke in verstecktes HTML-Formular schreiben	Allgemeine Java-Themen	4	16. Feb 2010
D	Strings von HTML befreien	Allgemeine Java-Themen	17	23. Jan 2010
A	HTML-Seite aufrufen, drucken und zum Programm zurückkehren	Allgemeine Java-Themen	2	17. Jan 2010
E	Html tags entfernen optimieren	Allgemeine Java-Themen	12	24. Dez 2009
Q	API zum Verarbeiten von HTML	Allgemeine Java-Themen	4	23. Okt 2009
	PDF mit seiner Formatierung in HTML umwandeln	Allgemeine Java-Themen	15	22. Sep 2009
B	Java in HTML stellen	Allgemeine Java-Themen	11	14. Aug 2009
M	id aus HTML (Regex)	Allgemeine Java-Themen	7	5. Aug 2009
D	HTML mit Java verknüpfen	Allgemeine Java-Themen	2	29. Jul 2009
W	HTML-Pfad	Allgemeine Java-Themen	4	21. Jul 2009
G	HTML-Datei einlesen, Plain Text in Textfile speichern	Allgemeine Java-Themen	4	30. Jun 2009
A	HTML-Seite wieder schließen	Allgemeine Java-Themen	2	28. Jun 2009
E	JTidy html "hidden" Button drücken	Allgemeine Java-Themen	7	24. Jun 2009
	Regex zur Suche von "value-losen" Attributen in HTML Tags	Allgemeine Java-Themen	7	12. Jun 2009
	Java und HTML-Seiten mit Bildern - Wie passt das zusammen?	Allgemeine Java-Themen	2	1. Mai 2009
C	Applet: JFileChooser: PFad an HTML zürückgeben	Allgemeine Java-Themen	4	2. Apr 2009
T	Webseite (HTML) Parser gesucht	Allgemeine Java-Themen	8	25. Jan 2009
	RegEx: UBB in HTML konvertieren, Problem Verschachtelung	Allgemeine Java-Themen	3	10. Dez 2008
T	html Datei in jrxml Datei (JasperReports) umwandeln	Allgemeine Java-Themen	6	8. Aug 2008
J	Seltsame Exception beim Java Applet einbinden in Html	Allgemeine Java-Themen	2	29. Jul 2008
G	Import von HTML-Dateien	Allgemeine Java-Themen	5	17. Jun 2008
	Tidy HTML baum durchlaufen	Allgemeine Java-Themen	5	27. Mai 2008

HTML => DOM - Welcher Parser für meine Zwecke?

Skymax86

Neues Mitglied

Marco13

Top Contributor

Skymax86

Neues Mitglied

Marco13

Top Contributor

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen