G
Guest
Gast
Hallo,
Wie könnte ich vorgehen, wenn ich aus einer HTML-Datei zwei bestimmte Tabellen parsen will, die in ihrer Semantik immer den selben Aufbau haben, aber vom Layout her so unterschiedlich aufgebaut sind, dass sich hier keine allgemeingültigen Regeln zum parsen definieren lassen!
RegEx, untersuchen von Teilbäumen etc. ist eben zu regelbasiert, und es hat sich bei den Testdaten als äußerst unzuverlässig erwiesen.
Würden da evtl. KNN´s weiterhelfen?
Ich wäre euch für jede Anregung dankbar!
Gruß
M.
Wie könnte ich vorgehen, wenn ich aus einer HTML-Datei zwei bestimmte Tabellen parsen will, die in ihrer Semantik immer den selben Aufbau haben, aber vom Layout her so unterschiedlich aufgebaut sind, dass sich hier keine allgemeingültigen Regeln zum parsen definieren lassen!
RegEx, untersuchen von Teilbäumen etc. ist eben zu regelbasiert, und es hat sich bei den Testdaten als äußerst unzuverlässig erwiesen.
Würden da evtl. KNN´s weiterhelfen?
Ich wäre euch für jede Anregung dankbar!
Gruß
M.