Hallo,
wie der Titel schon verrät, suche ich eine Java-Bibliothek oder einen Ansatz, wie ich nur den Textanteil aus einem PDF-Dokument extrahiere. Mein Ziel ist, diese Dokumente für Suchaktionen zu verwenden.
Gibt es einen solchen Ansatz schon irgendwo?
Für Unix und Windows gibt es ein Programm namens "pdftotext" (im Paket XPDF enthalten), das OpenSource ist und in C++ geschrieben wurde. Allerdings möchte ich lieber auf JAVA-Quellen zurückgreifen, anstatt per Hand C++ nach JAVA umzuwandeln.
Danke im Voraus,
Rapthor
wie der Titel schon verrät, suche ich eine Java-Bibliothek oder einen Ansatz, wie ich nur den Textanteil aus einem PDF-Dokument extrahiere. Mein Ziel ist, diese Dokumente für Suchaktionen zu verwenden.
Gibt es einen solchen Ansatz schon irgendwo?
Für Unix und Windows gibt es ein Programm namens "pdftotext" (im Paket XPDF enthalten), das OpenSource ist und in C++ geschrieben wurde. Allerdings möchte ich lieber auf JAVA-Quellen zurückgreifen, anstatt per Hand C++ nach JAVA umzuwandeln.
Danke im Voraus,
Rapthor