PDF API

Matzman · 27. Nov 2007

Hallo allerseits,

ich möchte ein Programm schreiben, dass PDF-Dateien in eine Datenbank einliest und ich in dieser Datenbank per Volltextsuche alle eingelesenen PDFs durchforsten kann (Adobe Digital Editions müsste das können, aber für OS X Leopard ist das noch nicht verfügbar).

Das mit der Datenbank dürfte weniger das Problem sein, aber eine geeignete API zu finden, die PDFs lesen kann schon. Könnt ihr mir eine empfehlen? Ich habe von "itext" gehört, aber immer nur im Zusammenhang mit PDFs erstellen...

Vielen Dank schonmal!

Grüße

Wildcard · 27. Nov 2007

PDFBox zb.

Matzman · 27. Nov 2007

ah vielen Dank! Die muss ich übersehen haben...

Matzman · 19. Dez 2007

also ich hab mir die pdfbox mal angesehn, kam aber nicht damit zurecht. Gibt es noch alternativen dazu? Mit was kann man sonst noch den text aus einer pdf datei lesen?

Danke!

AlArenal · 19. Dez 2007

http://snowtide.com/PDFTextStream

AlArenal · 19. Dez 2007

http://snowtide.com/PDFTextStream

DocRandom · 19. Dez 2007

..ist aber ned gerade billig!

lg
DocRandom

AlArenal · 19. Dez 2007

Habe ich auch nicht behauptet und von einem Preis war in der Frage auch keine Rede.

Matzman · 19. Dez 2007

danke, das hab ich mir auch schon angesehen...das mit dem Preis hab ich leider vergessen, es sollte open source sein. aber außer pdfbox hab ich bis jetzt nichts brauchbares gefunden. Dann muss ich wohl doch pdfbox nehmen, aber damit kam ich nicht zurecht. Dann muss ich da wohl durch.

kama · 19. Dez 2007

Hallo,

Matzman hat gesagt.:
ich möchte ein Programm schreiben, dass PDF-Dateien in eine Datenbank einliest und ich in dieser Datenbank per Volltextsuche alle eingelesenen PDFs durchforsten kann (Adobe Digital Editions müsste das können, aber für OS X Leopard ist das noch nicht verfügbar).

Warum unbedingt eine Datenbank?

Nimm doch eine Suchmaschine....z.B. Lucene von Apache....

Extraktion von Text aus PDF (z.B. PDFBox oder FAQ http://wiki.apache.org/lucene-java/LuceneFAQ)

In Lucene ist eine Kommandozeilen Tool dabei, das als Beispiel dient wie man grundsätzlich vorgeht...

Weiterhin die Nutzung der PDFBox ist recht simpel:

Mal als Beispiel:
http://supose.soebes.biz/browser/trunk/src/main/java/com/soebes/supose/scan/ScanPDFDocument.java

MfG
Karl Heinz Marbaise

Matzman · 19. Dez 2007

Hallo,

also ich hab mir jetzt gerade einen kleinen Text zu Lucene durchgelesen. Das ist natürlich eine super idee. Das heißt ja dann ich kann die Datenbank komplett weglassen. Das wäre nämlich ein rießen klotz am Bein. Aber was ich auf die schnelle noch nicht erfahren konnte, was macht Lucene genau. Also wenn ich zb 100 Pdfs durchsuchen möchte, werden diese ja davor analysiert und indexiert. Heißt das der komplette text wird extrahiert und irgendwo gespeichert? Was genau passiert in Lucene?

Viele Dank schonmal! Das hat mir ein weites stück vorangebracht

!

Wildcard · 19. Dez 2007

Lucene erstellt einen Suchindex über jeglichen Kontext dem du ihm vorsetzt.
Es handelt sich um eine hervorragende Bibliothek die auch für die Wikipedia Suche, den Eclipse Indexer und diverse Desktop Suchmaschinen verwendet wird.

Matzman · 19. Dez 2007

Genau das war mein Problem

! Was genau ist ein Suchindex? also wie groß wird sowas bei vielen Dateien etc. Ich mach mich gleich mal auf dich Suche, aber falls ihr tolle quellen habt zu Lucene und pdfbox wäre ich euch sehr dankbar!

Vielen dank nochmals!

Wildcard · 19. Dez 2007

Das ist sehr abhängig vom Festplatteninhalt und was alles indexiert wird.
Wenn du nur PDFs indexieren willst, dann wird der Index ein Bruchteil der Größe der PDFs sein

Matzman · 19. Dez 2007

interessant

! das heißt ich werde mich jetzt mal mit Lucene beschäftigen und hoff mal das ich da was hinbekomme!

PDF API

Matzman

Mitglied

Wildcard

Top Contributor

Matzman

Mitglied

Matzman

Mitglied

AlArenal

Top Contributor

AlArenal

Top Contributor

DocRandom

Top Contributor

AlArenal

Top Contributor

Matzman

Mitglied

kama

Top Contributor

Matzman

Mitglied

Wildcard

Top Contributor

Matzman

Mitglied

Wildcard

Top Contributor

Matzman

Mitglied

Aktuelle Jobs

Neue Themen