Import von HTML-Dateien

Status
Nicht offen für weitere Antworten.
G

Guest

Gast
Hallo,

Wie könnte ich vorgehen, wenn ich aus einer HTML-Datei zwei bestimmte Tabellen parsen will, die in ihrer Semantik immer den selben Aufbau haben, aber vom Layout her so unterschiedlich aufgebaut sind, dass sich hier keine allgemeingültigen Regeln zum parsen definieren lassen!

RegEx, untersuchen von Teilbäumen etc. ist eben zu regelbasiert, und es hat sich bei den Testdaten als äußerst unzuverlässig erwiesen.

Würden da evtl. KNN´s weiterhelfen?

Ich wäre euch für jede Anregung dankbar!

Gruß
M.
 
G

Guest

Gast
Danke für den Link.

Du hast aber meine Fragestellung anscheinend nicht ganz verstanden, denn genau das mache ich ja bereits: Ich verwende einen HTML-Parser der mir einen Objektbaum zurückgibt, über den ich dann traversiere.

Auf einzelne Elementinhalte wende ich dann reguläre Ausdrücke an, aber das ist erst der 2. Schritt.

Wie gesagt - das größte Problem liegt daran, die richtigen Knoten zu erkennen, denn es gibt zuviele Variatonen.
 
M

maki

Gast
Am besten Vergleicht man Daten im sleben Format, d.h. entweder eine oder beide Tabellen auf ein Format konvertieren.
 
G

Guest

Gast
Leroy42 hat gesagt.:
Anonymous hat gesagt.:
Wie gesagt - das größte Problem liegt daran, die richtigen Knoten zu erkennen, denn es gibt zuviele Variatonen.

Ja und was willst du jetzt genau wissen?
Wie definieren sich die Variationen?

Folgende Variationen sind möglich:

- Es befinden sich mehr als nur die 2 gesuchten Tabellen im selben Dokument (bis zu 20), die zu allem Überfluss auch noch identische Positionen haben können.

- Selbst wenn man die richtige Tabelle erwischt, kommen folgende Probleme hinzu: Die Positionsbezeichnungen müssen gegen ein Lexikon geprüft werden. Das funktioniert aber nur, solange sich der Text für die Positionsbezeichnung in einer einzelnen Zelle befindet. Mehrzeilige Positionsbezeichnungen erstrecken sich entweder über mehrere Zellen, Zeilen oder auch beides zusammen und enthalten variable Tags dazwischen, die das ganze wiederum erschweren.

Woher weis jetzt also mein Programm, ob dies noch teil einer vorherigen Position ist oder schon die nächste Position?

- Überschriften der Tabellen sind nicht eindeutig

- Die 2 gewünschten Tabellen können eintweder getrennt als einzelene Tabellen, oder auch zusammen in einer einzigen vorkommen.

- Zahlenwerte sind teilweise unterschiedlich formatiert, einmal in Euro, dann in Tausend Euro, es gibt keine Möglichkeit dies zu unterscheiden.

Ich könnte das ganze noch fortsetzen, dies sind aber im Moment die Hauptschwierigkeiten
 
Status
Nicht offen für weitere Antworten.
Ähnliche Java Themen
  Titel Forum Antworten Datum
P Selenium Scriipt zeigt Fehler beim Import Allgemeine Java-Themen 3
F Reason: Missing Constraint: Import-Package: okhttp3.internal.http; version="0.0.0" Allgemeine Java-Themen 0
bueseb84 Fehler beim Import von Maven Dependencies aus lokalem artifactory Allgemeine Java-Themen 2
G Langtexte - Cellformat import in Excel Allgemeine Java-Themen 3
S Auto-Import generierte Java-Klasse ? Allgemeine Java-Themen 4
M import Fehler Allgemeine Java-Themen 2
S import meine.eigenes.import Allgemeine Java-Themen 6
S Problem mit CSV-Import in OpenOffice Allgemeine Java-Themen 8
J "unused"-Warnungen für import-Anweisungen unterdrücken Allgemeine Java-Themen 9
X CATIA Konstuktionsdaten Import- Darstellung Allgemeine Java-Themen 4
R import von Jasper (für SICStus Prolog) klappt nicht Allgemeine Java-Themen 2
T Class Not Found Exception beim import von Paket Allgemeine Java-Themen 2
K import- Anweisung fehlerhaft und andere Fehler (eclipse) Allgemeine Java-Themen 2
N import com.sun.tools.javac.Main; Allgemeine Java-Themen 1
Developer_X Import Java3D in der Eingabeaufforderung Allgemeine Java-Themen 12
D Hilfe bei ZIP-import benötigt Allgemeine Java-Themen 13
P Import Fehler Allgemeine Java-Themen 5
E (einfaches) Problem mit import und package (export) Allgemeine Java-Themen 4
E Warum kein Import? Allgemeine Java-Themen 3
M Import findet das Projekt nicht. Allgemeine Java-Themen 5
@ [Eclipse] Fehlermeldung bei import-Anweisung Allgemeine Java-Themen 3
E import mittels Eclipse Allgemeine Java-Themen 3
R import Klassen Allgemeine Java-Themen 3
D Problem mit import von jdic Systemtray Allgemeine Java-Themen 2
V Verständnisproblem Eclipse BuildPath <-> Import Jar Fi Allgemeine Java-Themen 1
S Enums - statischer import Allgemeine Java-Themen 2
K Import von jar-Dateien Allgemeine Java-Themen 2
K bitte um hilfe bei file import Allgemeine Java-Themen 7
P Import Allgemeine Java-Themen 9
S import vs. extends Allgemeine Java-Themen 2
B Static Import: Syntaxfrage Allgemeine Java-Themen 2
G Classpath, Packages und Import Allgemeine Java-Themen 3
S Bookmark HTML Datei einlesen, alle Links erhalten und manche editieren..? (aktuell JSoup) Allgemeine Java-Themen 4
S HTML einer Webseite 1:1 so bekommen wie es auch der Browser anzeigt? Allgemeine Java-Themen 14
C Parsen einer sich updatenden Html mithilfe von jsoup Allgemeine Java-Themen 4
I HTML / XHTML Seite nach Excel exportieren. Suche Lib Allgemeine Java-Themen 12
F Kennt ihr eine Library um 2 HTML Seiten zu diffen? Allgemeine Java-Themen 8
K HTMLEditor HTML Text in Rich Text umwandeln Allgemeine Java-Themen 14
N Value Wert aus HTML-Button mittels thymeleaf spring an java übergeben Allgemeine Java-Themen 2
N Lottowebsite programmieren mittels Java, HTML,.... Allgemeine Java-Themen 7
S HTML den ich von einer URL hole nicht identisch mit dem HTML im Browser Allgemeine Java-Themen 1
M Html Seite auslesen Allgemeine Java-Themen 16
Developer_X Website HTML Code von HTTPS URL laden Allgemeine Java-Themen 0
L HTML Formular ausführen Allgemeine Java-Themen 1
J Auslesen Daten Java/HTML Allgemeine Java-Themen 15
A Applet in HTML einbinden Allgemeine Java-Themen 1
KeVoZ_ JSoup - HTML Tag entfernen Allgemeine Java-Themen 1
I HTML einer Website auslesen liefert nur head Allgemeine Java-Themen 6
perlenfischer1984 HTML Code decodieren Allgemeine Java-Themen 2
stylegangsta Mehrere html seiten einer Homepage einlesen und als Textdatei ausgeben Allgemeine Java-Themen 14
P HTML Text bearbeiten Allgemeine Java-Themen 1
A Probleme beim auslesen von Quelltext (HTML) Allgemeine Java-Themen 5
OnDemand String aus html einlesen Allgemeine Java-Themen 2
OnDemand Substring einer HTML Seite will nicht Allgemeine Java-Themen 5
S Applet in html laden; InvocationTargetException,.. nur warum ? Allgemeine Java-Themen 0
R HTML Tabelle durchsuchen Allgemeine Java-Themen 3
L Erste Schritte Eclipse und Lokal funktioniert - in HTML nicht! Allgemeine Java-Themen 2
T Keyword Highlighting in HTML Allgemeine Java-Themen 5
B Best Practice HTML Output Optimal implementieren Allgemeine Java-Themen 3
A jEditorPane Html Datei öffnen (code) Allgemeine Java-Themen 3
Y Applet/Html - Wie Java-Methode aufrufen, die einen Parameter erwartet? Allgemeine Java-Themen 3
H HTML Parsing errors Allgemeine Java-Themen 9
P Aktuellen HTML Code auslesen (von JS manipuliert) Allgemeine Java-Themen 3
M HTML-Code von Webseite über Browser oder Console auslesen?? Allgemeine Java-Themen 5
S Robuste Methode um Text von HTML code zu extrahieren..? Allgemeine Java-Themen 6
S Bekomme mit Scanner und URL keine Html-Seite ausgelesen Allgemeine Java-Themen 3
C JEditorPane langsam großes HTML Allgemeine Java-Themen 8
M html aus aktuellem Browserfenster mitlesen lassen Allgemeine Java-Themen 5
T Kann HTML Datei nicht lesen Allgemeine Java-Themen 3
S HTML-Quelltext nach bestimmter Stelle durchsuchen Allgemeine Java-Themen 2
B HTML Tags in Strings umwandeln Allgemeine Java-Themen 4
S BufferedReader/PrintWriter an einer HTML Allgemeine Java-Themen 6
T HTML Tag Position mittels Pattern ermitteln Allgemeine Java-Themen 7
C Attribute aus HTML Tags auslesen Allgemeine Java-Themen 6
M Wicket Html Allgemeine Java-Themen 2
S Fehler beim ausführen des HTML Allgemeine Java-Themen 7
S Fehler Applet-HTML Allgemeine Java-Themen 5
B suchfunktion in html integrieren Allgemeine Java-Themen 3
DEvent Wieso ist Javadoc mit Html Tags? Allgemeine Java-Themen 47
P RegEx mit HTML Parser für Java möglich? Allgemeine Java-Themen 10
B RTF zu HTML Allgemeine Java-Themen 3
S Von HTML-Seite den Titel bekommen Allgemeine Java-Themen 2
M .jar in HTML einbinden Allgemeine Java-Themen 5
H Kleiner HTML Parser (Facharbeit) Allgemeine Java-Themen 11
K iText, HTML Einrückung im Document, aber nicht im Paragraph Allgemeine Java-Themen 3
J Überprüfen ob URL eine HTML Datei referenziert Allgemeine Java-Themen 4
E Zeilenumbruch html Allgemeine Java-Themen 3
J URLs aus HTML Datei extrahieren Allgemeine Java-Themen 2
G Swing JEditorPaneAppender (Output im HTML-Format) Allgemeine Java-Themen 12
W Java Anwendung in HTML Allgemeine Java-Themen 2
M Html Unit Whitespace-Problem Allgemeine Java-Themen 4
J HTML-Sonderzeichen ersetzen Allgemeine Java-Themen 2
M HTML-Websiten verarbeiten Allgemeine Java-Themen 8
A Index Datei aus HTML-Dateien Allgemeine Java-Themen 7
S HTML => DOM - Welcher Parser für meine Zwecke? Allgemeine Java-Themen 3
I HTML Seite laden Allgemeine Java-Themen 6
W Saubere Lösung für das Auslesen einer Html Seite (Mehrsprachigkeit) Allgemeine Java-Themen 5
M String in Html Text umwandeln Allgemeine Java-Themen 2
S Formatierungen aus HTML-Dokument übernehmen und in Word docx schreiben Allgemeine Java-Themen 3
E HTML File mit Umlaute einlesen Allgemeine Java-Themen 8

Ähnliche Java Themen

Neue Themen


Oben