Import von HTML-Dateien

Guest · 17. Jun 2008

Hallo,

Wie könnte ich vorgehen, wenn ich aus einer HTML-Datei zwei bestimmte Tabellen parsen will, die in ihrer Semantik immer den selben Aufbau haben, aber vom Layout her so unterschiedlich aufgebaut sind, dass sich hier keine allgemeingültigen Regeln zum parsen definieren lassen!

RegEx, untersuchen von Teilbäumen etc. ist eben zu regelbasiert, und es hat sich bei den Testdaten als äußerst unzuverlässig erwiesen.

Würden da evtl. KNN´s weiterhelfen?

Ich wäre euch für jede Anregung dankbar!

Gruß
M.

FArt · 17. Jun 2008

http://www.google.de/search?hl=de&q=java+parse+html&btnG=Google-Suche&meta=?

Guest · 17. Jun 2008

Danke für den Link.

Du hast aber meine Fragestellung anscheinend nicht ganz verstanden, denn genau das mache ich ja bereits: Ich verwende einen HTML-Parser der mir einen Objektbaum zurückgibt, über den ich dann traversiere.

Auf einzelne Elementinhalte wende ich dann reguläre Ausdrücke an, aber das ist erst der 2. Schritt.

Wie gesagt - das größte Problem liegt daran, die richtigen Knoten zu erkennen, denn es gibt zuviele Variatonen.

Leroy42 · 17. Jun 2008

Anonymous hat gesagt.:
Wie gesagt - das größte Problem liegt daran, die richtigen Knoten zu erkennen, denn es gibt zuviele Variatonen.

Ja und was willst du jetzt genau wissen?
Wie definieren sich die Variationen?

maki · 17. Jun 2008

Am besten Vergleicht man Daten im sleben Format, d.h. entweder eine oder beide Tabellen auf ein Format konvertieren.

Guest · 17. Jun 2008

Leroy42 hat gesagt.:
Anonymous hat gesagt.:

Wie gesagt - das größte Problem liegt daran, die richtigen Knoten zu erkennen, denn es gibt zuviele Variatonen.

Zum Vergrößern anklicken....

Ja und was willst du jetzt genau wissen?
Wie definieren sich die Variationen?

Folgende Variationen sind möglich:

- Es befinden sich mehr als nur die 2 gesuchten Tabellen im selben Dokument (bis zu 20), die zu allem Überfluss auch noch identische Positionen haben können.

- Selbst wenn man die richtige Tabelle erwischt, kommen folgende Probleme hinzu: Die Positionsbezeichnungen müssen gegen ein Lexikon geprüft werden. Das funktioniert aber nur, solange sich der Text für die Positionsbezeichnung in einer einzelnen Zelle befindet. Mehrzeilige Positionsbezeichnungen erstrecken sich entweder über mehrere Zellen, Zeilen oder auch beides zusammen und enthalten variable Tags dazwischen, die das ganze wiederum erschweren.

Woher weis jetzt also mein Programm, ob dies noch teil einer vorherigen Position ist oder schon die nächste Position?

- Überschriften der Tabellen sind nicht eindeutig

- Die 2 gewünschten Tabellen können eintweder getrennt als einzelene Tabellen, oder auch zusammen in einer einzigen vorkommen.

- Zahlenwerte sind teilweise unterschiedlich formatiert, einmal in Euro, dann in Tausend Euro, es gibt keine Möglichkeit dies zu unterscheiden.

Ich könnte das ganze noch fortsetzen, dies sind aber im Moment die Hauptschwierigkeiten

	Titel	Forum	Antworten	Datum
P	Selenium Scriipt zeigt Fehler beim Import	Allgemeine Java-Themen	3	22. Feb 2022
F	Reason: Missing Constraint: Import-Package: okhttp3.internal.http; version="0.0.0"	Allgemeine Java-Themen	0	27. Apr 2021
	Fehler beim Import von Maven Dependencies aus lokalem artifactory	Allgemeine Java-Themen	2	4. Jul 2020
G	Langtexte - Cellformat import in Excel	Allgemeine Java-Themen	3	7. Jan 2014
S	Auto-Import generierte Java-Klasse ?	Allgemeine Java-Themen	4	25. Sep 2012
M	import Fehler	Allgemeine Java-Themen	2	28. Mai 2012
S	import meine.eigenes.import	Allgemeine Java-Themen	6	21. Feb 2012
S	Problem mit CSV-Import in OpenOffice	Allgemeine Java-Themen	8	6. Sep 2010
J	"unused"-Warnungen für import-Anweisungen unterdrücken	Allgemeine Java-Themen	9	13. Jul 2010
X	CATIA Konstuktionsdaten Import- Darstellung	Allgemeine Java-Themen	4	17. Feb 2010
R	import von Jasper (für SICStus Prolog) klappt nicht	Allgemeine Java-Themen	2	19. Jan 2010
T	Class Not Found Exception beim import von Paket	Allgemeine Java-Themen	2	31. Aug 2009
K	import- Anweisung fehlerhaft und andere Fehler (eclipse)	Allgemeine Java-Themen	2	10. Mai 2009
N	import com.sun.tools.javac.Main;	Allgemeine Java-Themen	1	23. Apr 2009
	Import Java3D in der Eingabeaufforderung	Allgemeine Java-Themen	12	24. Feb 2009
D	Hilfe bei ZIP-import benötigt	Allgemeine Java-Themen	13	12. Feb 2009
P	Import Fehler	Allgemeine Java-Themen	5	5. Feb 2009
E	(einfaches) Problem mit import und package (export)	Allgemeine Java-Themen	4	2. Feb 2008
E	Warum kein Import?	Allgemeine Java-Themen	3	1. Okt 2007
M	Import findet das Projekt nicht.	Allgemeine Java-Themen	5	20. Sep 2007
@	[Eclipse] Fehlermeldung bei import-Anweisung	Allgemeine Java-Themen	3	20. Sep 2007
E	import mittels Eclipse	Allgemeine Java-Themen	3	22. Mai 2007
R	import Klassen	Allgemeine Java-Themen	3	3. Apr 2007
D	Problem mit import von jdic Systemtray	Allgemeine Java-Themen	2	21. Apr 2006
V	Verständnisproblem Eclipse BuildPath <-> Import Jar Fi	Allgemeine Java-Themen	1	16. Mrz 2006
S	Enums - statischer import	Allgemeine Java-Themen	2	30. Nov 2005
K	Import von jar-Dateien	Allgemeine Java-Themen	2	13. Mai 2005
K	bitte um hilfe bei file import	Allgemeine Java-Themen	7	5. Apr 2005
P	Import	Allgemeine Java-Themen	9	4. Mrz 2005
S	import vs. extends	Allgemeine Java-Themen	2	12. Feb 2005
B	Static Import: Syntaxfrage	Allgemeine Java-Themen	2	19. Nov 2004
G	Classpath, Packages und Import	Allgemeine Java-Themen	3	6. Sep 2004
S	Bookmark HTML Datei einlesen, alle Links erhalten und manche editieren..? (aktuell JSoup)	Allgemeine Java-Themen	4	7. Jul 2022
S	HTML einer Webseite 1:1 so bekommen wie es auch der Browser anzeigt?	Allgemeine Java-Themen	14	30. Jun 2022
C	Parsen einer sich updatenden Html mithilfe von jsoup	Allgemeine Java-Themen	4	27. Jan 2022
I	HTML / XHTML Seite nach Excel exportieren. Suche Lib	Allgemeine Java-Themen	12	30. Jul 2021
F	Kennt ihr eine Library um 2 HTML Seiten zu diffen?	Allgemeine Java-Themen	8	20. Jul 2021
K	HTMLEditor HTML Text in Rich Text umwandeln	Allgemeine Java-Themen	14	5. Apr 2021
N	Value Wert aus HTML-Button mittels thymeleaf spring an java übergeben	Allgemeine Java-Themen	2	26. Nov 2020
N	Lottowebsite programmieren mittels Java, HTML,....	Allgemeine Java-Themen	7	25. Nov 2020
S	HTML den ich von einer URL hole nicht identisch mit dem HTML im Browser	Allgemeine Java-Themen	1	3. Apr 2020
M	Html Seite auslesen	Allgemeine Java-Themen	16	16. Sep 2018
	Website HTML Code von HTTPS URL laden	Allgemeine Java-Themen	0	13. Okt 2017
L	HTML Formular ausführen	Allgemeine Java-Themen	1	29. Jul 2017
J	Auslesen Daten Java/HTML	Allgemeine Java-Themen	15	12. Dez 2016
A	Applet in HTML einbinden	Allgemeine Java-Themen	1	16. Nov 2016
	JSoup - HTML Tag entfernen	Allgemeine Java-Themen	1	30. Sep 2016
I	HTML einer Website auslesen liefert nur head	Allgemeine Java-Themen	6	3. Mai 2016
	HTML Code decodieren	Allgemeine Java-Themen	2	22. Mrz 2016
	Mehrere html seiten einer Homepage einlesen und als Textdatei ausgeben	Allgemeine Java-Themen	14	23. Aug 2015
P	HTML Text bearbeiten	Allgemeine Java-Themen	1	28. Okt 2014
A	Probleme beim auslesen von Quelltext (HTML)	Allgemeine Java-Themen	5	25. Mai 2014
	String aus html einlesen	Allgemeine Java-Themen	2	20. Apr 2014
	Substring einer HTML Seite will nicht	Allgemeine Java-Themen	5	16. Mrz 2014
S	Applet in html laden; InvocationTargetException,.. nur warum ?	Allgemeine Java-Themen	0	29. Jan 2014
R	HTML Tabelle durchsuchen	Allgemeine Java-Themen	3	10. Jan 2014
L	Erste Schritte Eclipse und Lokal funktioniert - in HTML nicht!	Allgemeine Java-Themen	2	5. Feb 2013
T	Keyword Highlighting in HTML	Allgemeine Java-Themen	5	9. Jan 2013
B	Best Practice HTML Output Optimal implementieren	Allgemeine Java-Themen	3	7. Jan 2013
A	jEditorPane Html Datei öffnen (code)	Allgemeine Java-Themen	3	18. Dez 2012
Y	Applet/Html - Wie Java-Methode aufrufen, die einen Parameter erwartet?	Allgemeine Java-Themen	3	21. Nov 2012
H	HTML Parsing errors	Allgemeine Java-Themen	9	16. Okt 2012
P	Aktuellen HTML Code auslesen (von JS manipuliert)	Allgemeine Java-Themen	3	8. Okt 2012
M	HTML-Code von Webseite über Browser oder Console auslesen??	Allgemeine Java-Themen	5	2. Sep 2012
S	Robuste Methode um Text von HTML code zu extrahieren..?	Allgemeine Java-Themen	6	27. Jul 2012
S	Bekomme mit Scanner und URL keine Html-Seite ausgelesen	Allgemeine Java-Themen	3	12. Jun 2012
C	JEditorPane langsam großes HTML	Allgemeine Java-Themen	8	10. Mai 2012
M	html aus aktuellem Browserfenster mitlesen lassen	Allgemeine Java-Themen	5	9. Apr 2012
T	Kann HTML Datei nicht lesen	Allgemeine Java-Themen	3	4. Apr 2012
S	HTML-Quelltext nach bestimmter Stelle durchsuchen	Allgemeine Java-Themen	2	27. Mrz 2012
B	HTML Tags in Strings umwandeln	Allgemeine Java-Themen	4	24. Mrz 2012
S	BufferedReader/PrintWriter an einer HTML	Allgemeine Java-Themen	6	19. Feb 2012
T	HTML Tag Position mittels Pattern ermitteln	Allgemeine Java-Themen	7	8. Feb 2012
C	Attribute aus HTML Tags auslesen	Allgemeine Java-Themen	6	18. Jan 2012
M	Wicket Html	Allgemeine Java-Themen	2	16. Jan 2012
S	Fehler beim ausführen des HTML	Allgemeine Java-Themen	7	15. Jan 2012
S	Fehler Applet-HTML	Allgemeine Java-Themen	5	14. Jan 2012
B	suchfunktion in html integrieren	Allgemeine Java-Themen	3	30. Nov 2011
	Wieso ist Javadoc mit Html Tags?	Allgemeine Java-Themen	47	4. Sep 2011
P	RegEx mit HTML Parser für Java möglich?	Allgemeine Java-Themen	10	6. Jul 2011
B	RTF zu HTML	Allgemeine Java-Themen	3	4. Jul 2011
S	Von HTML-Seite den Titel bekommen	Allgemeine Java-Themen	2	29. Jun 2011
M	.jar in HTML einbinden	Allgemeine Java-Themen	5	12. Jun 2011
H	Kleiner HTML Parser (Facharbeit)	Allgemeine Java-Themen	11	8. Jun 2011
K	iText, HTML Einrückung im Document, aber nicht im Paragraph	Allgemeine Java-Themen	3	4. Jun 2011
J	Überprüfen ob URL eine HTML Datei referenziert	Allgemeine Java-Themen	4	1. Jun 2011
E	Zeilenumbruch html	Allgemeine Java-Themen	3	12. Mai 2011
J	URLs aus HTML Datei extrahieren	Allgemeine Java-Themen	2	14. Apr 2011
G	Swing JEditorPaneAppender (Output im HTML-Format)	Allgemeine Java-Themen	12	14. Apr 2011
W	Java Anwendung in HTML	Allgemeine Java-Themen	2	22. Feb 2011
M	Html Unit Whitespace-Problem	Allgemeine Java-Themen	4	8. Feb 2011
J	HTML-Sonderzeichen ersetzen	Allgemeine Java-Themen	2	6. Feb 2011
M	HTML-Websiten verarbeiten	Allgemeine Java-Themen	8	17. Jan 2011
A	Index Datei aus HTML-Dateien	Allgemeine Java-Themen	7	8. Jan 2011
S	HTML => DOM - Welcher Parser für meine Zwecke?	Allgemeine Java-Themen	3	7. Jan 2011
I	HTML Seite laden	Allgemeine Java-Themen	6	8. Nov 2010
W	Saubere Lösung für das Auslesen einer Html Seite (Mehrsprachigkeit)	Allgemeine Java-Themen	5	15. Okt 2010
M	String in Html Text umwandeln	Allgemeine Java-Themen	2	25. Sep 2010
S	Formatierungen aus HTML-Dokument übernehmen und in Word docx schreiben	Allgemeine Java-Themen	3	8. Sep 2010
E	HTML File mit Umlaute einlesen	Allgemeine Java-Themen	8	3. Sep 2010

Import von HTML-Dateien

Guest

Gast

FArt

Top Contributor

Guest

Gast

Leroy42

Top Contributor

maki

Gast

Guest

Gast

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen