PDF Content extrahieren mit JPO

Status
Nicht offen für weitere Antworten.

java_magnet

Mitglied
Hallo,

ich versuche mit JPOD http://sourceforge.net/projects/jpodlib/ PDF Dateien auszulesen, komme aber nicht weiter.
Gegoogelt hab ich schon, aber nur allgemeines Blabla gefunden ("mit JPOD können Sie..").
Mir ist klar, dass ich irgendwie ein de.intarsys.pdf.content.text.CSTextExtractor Objekt benötige, aber wie lade ich meinen PDF File da rein?
Leider hab ich wenig (gar keine) Ahnung vom PDF Format. Ich benötige nur den unformatierten Text, um einen Lucene Index zu füttern.


edit: Bin für Alternativen offen.

Hilfe,

magnet
 

Murray

Top Contributor
In den Beispielen werde PDF-Dateien so geöffnet:
Code:
	protected PDDocument basicOpen(String pathname) throws IOException,
			COSLoadException {
		FileLocator locator = new FileLocator(pathname);
		return PDDocument.createFromLocator(locator);
	}
 

java_magnet

Mitglied
Murray hat gesagt.:
In den Beispielen werde PDF-Dateien so geöffnet:
Code:
	protected PDDocument basicOpen(String pathname) throws IOException,
			COSLoadException {
		FileLocator locator = new FileLocator(pathname);
		return PDDocument.createFromLocator(locator);
	}

Und dann?
Wie bekomme ich dieses PDDocument nun mit meinem de.intarsys.pdf.content.text.CSTextExtractor verheiratet?
 

java_magnet

Mitglied
kama hat gesagt.:
Hallo,

schau mal unter:

http://lucene.apache.org/tika

nach....

MfG
Karl Heinz Marbaise

Wie konnte ich das nur übersehen?

Sieht ganz gut aus und war einfach zu implementieren.
1. tika downloaden
2. tika mit maven builden
3. PDFBox in den Classpath
4. commons-io-1.4.jar von apache in den Classpath
5. eigene org.xml.sax.ContentHandler implementieren. Eine Methode reicht völlig
Code:
public void characters(char[] ch, int start, int length)
fertig.

danke,

magnet
 

Murray

Top Contributor
java_magnet hat gesagt.:
Und dann?
Wie bekomme ich dieses PDDocument nun mit meinem de.intarsys.pdf.content.text.CSTextExtractor verheiratet?

Nur für den Fall, dass später jemand über die Suche auf diesen Thread stößt:

Aus dem PDDocument bekommt man mit getPageTree() einen PDPageTree. Daran gibt es eine Methode getKids(); das Resultat ist ein java.lang.Itarable, so dass man sich davon einen Iterator holen kann. So iteriert man die Kind-Elemente des PageTrees und macht eine Fallunterscheidung: ist das Element wiederum ein PDPageTree, dann geht es mit diesem PDPageTree rekursiv weiter. Ist das Element aber kein PDPageTree, sondern ein PDPage, so erzeugt man sich einen CSTextExtractor und einen CSDeviceBasedInterpreter dazu. An diesem Interpreter ruft man dann die Methode process mit dem Parametern page.getContentStream() und page.getResources() auf. Dan kann man mit extractor.getContent() den Text holen.

Das alles findet sich im Beispiel distribution\examples\de\intarsys\pdf\example\extract\text\ExtractText.java
 
Status
Nicht offen für weitere Antworten.
Ähnliche Java Themen
  Titel Forum Antworten Datum
A Variablen non-static variable cannot be referenced from a static content Allgemeine Java-Themen 4
F Content-Disposition ermitteln über URL Allgemeine Java-Themen 2
N Content von URL lesen Allgemeine Java-Themen 18
I URLConnection mit Chunked und Content-Length=-1 Allgemeine Java-Themen 4
A PDF Content vergleichen Allgemeine Java-Themen 3
A HashCode von DatagrammPacket(content) erzeugen. Allgemeine Java-Themen 3
M Content-Type setzen und auslesen? Allgemeine Java-Themen 2
R 11 GB File lesen ohne zu extrahieren Filedaten Bereich für Bereich adressieren dann mit Multi-Thread id die DB importieren Allgemeine Java-Themen 3
izoards Bestimmter Text aus PDF extrahieren Allgemeine Java-Themen 3
C Outlook msg-Datei Anhänge extrahieren Allgemeine Java-Themen 2
C jar Archiv im Programm aus dessen jar extrahieren Allgemeine Java-Themen 2
F Calss Datei mit allen Ressources extrahieren Allgemeine Java-Themen 5
S Robuste Methode um Text von HTML code zu extrahieren..? Allgemeine Java-Themen 6
P Font aus PDF extrahieren -> im Panel anzeigen Allgemeine Java-Themen 3
M DLL aus jar extrahieren und als lib nutzen Allgemeine Java-Themen 24
J String filtern / XML-Code extrahieren Allgemeine Java-Themen 4
L Private Key aus KeyDatei extrahieren Allgemeine Java-Themen 2
P Tonspur aus Video extrahieren und konvertieren Allgemeine Java-Themen 2
D [win] icon aus exe extrahieren Allgemeine Java-Themen 5
J URLs aus HTML Datei extrahieren Allgemeine Java-Themen 2
D Bilder extrahieren aus EPS - Problem mit ASCII85 Allgemeine Java-Themen 2
S JavaDoc aus .class Datei extrahieren Allgemeine Java-Themen 5
T [htmlparser.sourceforge.net] Attribute extrahieren Allgemeine Java-Themen 3
B Film aus Java JAR-Archiv extrahieren Allgemeine Java-Themen 4
M Embedded Files aus PDF extrahieren Allgemeine Java-Themen 3
S Daten extrahieren aus Excel Dateien (auch 2k7) Allgemeine Java-Themen 4
M TIFFs aus PDF extrahieren Allgemeine Java-Themen 4
C Textteile aus Strings extrahieren? Allgemeine Java-Themen 6
C Alle Möglichen Substrings der Länge k aus String extrahieren Allgemeine Java-Themen 9
R Text aus PDF extrahieren Allgemeine Java-Themen 2
spacegaier Kommastellen aus float extrahieren Allgemeine Java-Themen 13
P Bits extrahieren Allgemeine Java-Themen 5
K Verzeichnis rekursiv aus JAR-Datei extrahieren Allgemeine Java-Themen 6
J Packet aus JRE 6 für JRE 5 "extrahieren" Allgemeine Java-Themen 4
RaoulDuke Reguläre Ausdrücke - Daten extrahieren Allgemeine Java-Themen 3
R Text aus PDF extrahieren Allgemeine Java-Themen 1
M URL aus einem String extrahieren, mit reg. Ausdrücken? Allgemeine Java-Themen 19
M CAB Files extrahieren / entpacken Allgemeine Java-Themen 4

Ähnliche Java Themen

Neue Themen


Oben