Hallo,
ich versuche mit JPOD http://sourceforge.net/projects/jpodlib/ PDF Dateien auszulesen, komme aber nicht weiter.
Gegoogelt hab ich schon, aber nur allgemeines Blabla gefunden ("mit JPOD können Sie..").
Mir ist klar, dass ich irgendwie ein de.intarsys.pdf.content.text.CSTextExtractor Objekt benötige, aber wie lade ich meinen PDF File da rein?
Leider hab ich wenig (gar keine) Ahnung vom PDF Format. Ich benötige nur den unformatierten Text, um einen Lucene Index zu füttern.
edit: Bin für Alternativen offen.
Hilfe,
magnet
ich versuche mit JPOD http://sourceforge.net/projects/jpodlib/ PDF Dateien auszulesen, komme aber nicht weiter.
Gegoogelt hab ich schon, aber nur allgemeines Blabla gefunden ("mit JPOD können Sie..").
Mir ist klar, dass ich irgendwie ein de.intarsys.pdf.content.text.CSTextExtractor Objekt benötige, aber wie lade ich meinen PDF File da rein?
Leider hab ich wenig (gar keine) Ahnung vom PDF Format. Ich benötige nur den unformatierten Text, um einen Lucene Index zu füttern.
edit: Bin für Alternativen offen.
Hilfe,
magnet