Guten Abend Community,
ich stehe da vor einem "mittelschweren" Problem, für welches ich mir hier etwas Hilfe erhoffe. Für eine Auswertung mehrere Dokumente muss ich die vorhandenen Hyperlinks extrahieren. Damit leider nicht genug, ich benötige die zugehörige Struktur (Auflistung des vollständigen Kapitelbaums bis zum Link) und die Seitenangabe auf welcher der Link steht.
Manuell ist das Ganze aufgrund der Dokumentenvielfalt leider nicht denkbar.
Prinzipiell wäre ein Lösung für PDF am sinnvollsten. Wenn jedoch zeitgleich doc oder docx oder ähnliche Office-Dokumente analysiert werden könnten, wäre ich da sicherlich nicht böse drum...
Ich hoffe das Problem konnte ich einigermaßen klar schildern.
Altavista-Suchanfragen nach möglichen vorhandenen Hilfen führten mich u.a. zu Multivalent (was prinzipiell schonmal gut aussieht) und PDFBox i.V.m. Lucene.
Wäre für jeden Denkanstoss dankbar.
Ich hoffe ich bin hier im richtigen Forum - ggf. wäre dies auch als fortgeschritteneres Problem zu klassifizieren, dann die Bitte an einen Mod den Thread zu verschieben.
Viele Grüße,
bbh
ich stehe da vor einem "mittelschweren" Problem, für welches ich mir hier etwas Hilfe erhoffe. Für eine Auswertung mehrere Dokumente muss ich die vorhandenen Hyperlinks extrahieren. Damit leider nicht genug, ich benötige die zugehörige Struktur (Auflistung des vollständigen Kapitelbaums bis zum Link) und die Seitenangabe auf welcher der Link steht.
Manuell ist das Ganze aufgrund der Dokumentenvielfalt leider nicht denkbar.
Prinzipiell wäre ein Lösung für PDF am sinnvollsten. Wenn jedoch zeitgleich doc oder docx oder ähnliche Office-Dokumente analysiert werden könnten, wäre ich da sicherlich nicht böse drum...
Ich hoffe das Problem konnte ich einigermaßen klar schildern.
Altavista-Suchanfragen nach möglichen vorhandenen Hilfen führten mich u.a. zu Multivalent (was prinzipiell schonmal gut aussieht) und PDFBox i.V.m. Lucene.
Wäre für jeden Denkanstoss dankbar.
Ich hoffe ich bin hier im richtigen Forum - ggf. wäre dies auch als fortgeschritteneres Problem zu klassifizieren, dann die Bitte an einen Mod den Thread zu verschieben.
Viele Grüße,
bbh