PDF API

Status
Nicht offen für weitere Antworten.

Matzman

Mitglied
Hallo allerseits,

ich möchte ein Programm schreiben, dass PDF-Dateien in eine Datenbank einliest und ich in dieser Datenbank per Volltextsuche alle eingelesenen PDFs durchforsten kann (Adobe Digital Editions müsste das können, aber für OS X Leopard ist das noch nicht verfügbar).

Das mit der Datenbank dürfte weniger das Problem sein, aber eine geeignete API zu finden, die PDFs lesen kann schon. Könnt ihr mir eine empfehlen? Ich habe von "itext" gehört, aber immer nur im Zusammenhang mit PDFs erstellen...

Vielen Dank schonmal!

Grüße
 

Matzman

Mitglied
also ich hab mir die pdfbox mal angesehn, kam aber nicht damit zurecht. Gibt es noch alternativen dazu? Mit was kann man sonst noch den text aus einer pdf datei lesen?

Danke!
 

Matzman

Mitglied
danke, das hab ich mir auch schon angesehen...das mit dem Preis hab ich leider vergessen, es sollte open source sein. aber außer pdfbox hab ich bis jetzt nichts brauchbares gefunden. Dann muss ich wohl doch pdfbox nehmen, aber damit kam ich nicht zurecht. Dann muss ich da wohl durch.
 

kama

Top Contributor
Hallo,

Matzman hat gesagt.:
ich möchte ein Programm schreiben, dass PDF-Dateien in eine Datenbank einliest und ich in dieser Datenbank per Volltextsuche alle eingelesenen PDFs durchforsten kann (Adobe Digital Editions müsste das können, aber für OS X Leopard ist das noch nicht verfügbar).
Warum unbedingt eine Datenbank?

Nimm doch eine Suchmaschine....z.B. Lucene von Apache....

Extraktion von Text aus PDF (z.B. PDFBox oder FAQ http://wiki.apache.org/lucene-java/LuceneFAQ)

In Lucene ist eine Kommandozeilen Tool dabei, das als Beispiel dient wie man grundsätzlich vorgeht...

Weiterhin die Nutzung der PDFBox ist recht simpel:

Mal als Beispiel:
http://supose.soebes.biz/browser/trunk/src/main/java/com/soebes/supose/scan/ScanPDFDocument.java

MfG
Karl Heinz Marbaise
 

Matzman

Mitglied
Hallo,

also ich hab mir jetzt gerade einen kleinen Text zu Lucene durchgelesen. Das ist natürlich eine super idee. Das heißt ja dann ich kann die Datenbank komplett weglassen. Das wäre nämlich ein rießen klotz am Bein. Aber was ich auf die schnelle noch nicht erfahren konnte, was macht Lucene genau. Also wenn ich zb 100 Pdfs durchsuchen möchte, werden diese ja davor analysiert und indexiert. Heißt das der komplette text wird extrahiert und irgendwo gespeichert? Was genau passiert in Lucene?

Viele Dank schonmal! Das hat mir ein weites stück vorangebracht :)!
 

Wildcard

Top Contributor
Lucene erstellt einen Suchindex über jeglichen Kontext dem du ihm vorsetzt.
Es handelt sich um eine hervorragende Bibliothek die auch für die Wikipedia Suche, den Eclipse Indexer und diverse Desktop Suchmaschinen verwendet wird.
 

Matzman

Mitglied
Genau das war mein Problem :)! Was genau ist ein Suchindex? also wie groß wird sowas bei vielen Dateien etc. Ich mach mich gleich mal auf dich Suche, aber falls ihr tolle quellen habt zu Lucene und pdfbox wäre ich euch sehr dankbar!

Vielen dank nochmals!
 

Wildcard

Top Contributor
Das ist sehr abhängig vom Festplatteninhalt und was alles indexiert wird.
Wenn du nur PDFs indexieren willst, dann wird der Index ein Bruchteil der Größe der PDFs sein
 

Matzman

Mitglied
interessant :)! das heißt ich werde mich jetzt mal mit Lucene beschäftigen und hoff mal das ich da was hinbekomme!
 
Status
Nicht offen für weitere Antworten.

Neue Themen


Oben