PDF iText Wort Koordinaten auslesen

4a61766120617274697374 · 26. Okt 2016

Hallo zusammen

Ich suche nach einer Java Bibliothek, die mir den Text, sowie die Koordinaten, jedes einzelnen Wortes aus einer PDF Datei ausliest. Diese Informationen werden dann in einer Textdatei gespeichert.

Mit "iText" lese ich den ganzen Text aus. Aber ich bringe ich es nicht fertig die einzelnen Koordinaten der einzelnen Wörter auszulesen. Hat jemand Erfahrung mit "iText", oder weiss jemand wie man das machen könnte?

Anbei der Code:

Java:

import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfReaderContentParser;
import com.itextpdf.text.pdf.parser.SimpleTextExtractionStrategy;
import com.itextpdf.text.pdf.parser.TextExtractionStrategy;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.PrintWriter;

public class PdfTextExtractor {
  public static final String PREFACE = "pdf-xy.pdf";
  public static final String RESULT = "Inhalt.txt";

  public void parsePdf(String pdf, String txt) throws IOException {
    PdfReader reader = new PdfReader(pdf);
    PdfReaderContentParser parser = new PdfReaderContentParser(reader);
    PrintWriter out = new PrintWriter(new FileOutputStream(txt));
    TextExtractionStrategy strategy;

    for (int i = 1; i <= reader.getNumberOfPages(); i++) {
      strategy = parser.processContent(i, new SimpleTextExtractionStrategy());
      out.println(strategy.getResultantText());
    }

    reader.close();
    out.flush();
    out.close();
  }

  public static void main(String[] args) throws IOException {
    PdfTextExtractor m = new PdfTextExtractor();
    m.parsePdf(PREFACE, RESULT);
  }
}

Robat · 26. Okt 2016

Ich glaube mit iText ist das nicht so ganz einfach. Du kannst dir zwar mit ein paar RenderListener und mitgelieferten Methoden einen Parser bauen, aber da müsstest du mal google befragen und dich einlesen. (bspw: http://stackoverflow.com/questions/13632541/get-the-exact-stringposition-in-pdf )

Wenn es nicht unbedingt iText sein muss, würde ich dir pdfbox empfehlen, wo du relative einfach die Coords von Strings herraus bekommst. In etwa so:

https://svn.apache.org/viewvc/pdfbo...ples/util/PrintTextLocations.java?view=markup

Gruß
Robert

	Titel	Forum	Antworten	Datum
	iText Lizenz?	Allgemeine Java-Themen	2	12. Mai 2022
O	PDF auslesen und verändern, was ist besser iText oder PDFBox ?	Allgemeine Java-Themen	9	6. Mrz 2022
I	OpenPDF (ehem. iText) will kein PDF mit CMYK only erzeugen	Allgemeine Java-Themen	6	8. Jun 2021
N	iText keine Sonderzeichen und Umlaute unter Windows	Allgemeine Java-Themen	13	12. Mrz 2021
W	PDFs signieren mittels IText / Lowagie	Allgemeine Java-Themen	0	25. Sep 2020
M	itext - Button der Text in Zwischenablage stellt	Allgemeine Java-Themen	0	7. Jan 2020
S	iText: zweite Seitenhälfte mit vorhandenen pdf füllen	Allgemeine Java-Themen	2	5. Jan 2020
T	PDF-Generierung (itext) - läuft unter Eclipse, bei har aber leere Seite	Allgemeine Java-Themen	39	16. Jan 2018
S	JFileChooser und iText	Allgemeine Java-Themen	6	3. Dez 2017
T	iText mit eclipse richtig in Java-Projekt einbinden	Allgemeine Java-Themen	2	10. Nov 2017
S	iText Cellen mit Attributen aus ArrayListen füllen	Allgemeine Java-Themen	1	8. Jun 2016
G	Mein PDF Projekt mit iText	Allgemeine Java-Themen	2	9. Apr 2016
T	itext: text in ein textfeld hinzufügen	Allgemeine Java-Themen	2	19. Feb 2016
K	Pdf mit dynamischem Text mit iText	Allgemeine Java-Themen	0	9. Dez 2015
C	Itext Voralagen Header Footer -> PDF	Allgemeine Java-Themen	0	15. Apr 2015
J	iText und PdfWriter.DID_SAVE	Allgemeine Java-Themen	4	3. Feb 2015
S	runnable jar file in Verbindung mit itext	Allgemeine Java-Themen	3	27. Aug 2014
I	itext Libreoffice Java und ein PDF Template	Allgemeine Java-Themen	1	13. Dez 2013
F	Input/Output Problem mit iText: Formularfeld uneditierbar machen	Allgemeine Java-Themen	0	3. Dez 2013
L	iText PDF-Generierung ohne Speichern	Allgemeine Java-Themen	10	27. Nov 2013
P	iText Text zentrieren	Allgemeine Java-Themen	3	8. Feb 2013
L	iText PDF Form-Felder werden nach Bearbeitung mit iText nicht mehr richtig erkannt.	Allgemeine Java-Themen	2	3. Feb 2013
A	Tabelle mit iText erstellen	Allgemeine Java-Themen	3	28. Sep 2012
B	itext Graphics	Allgemeine Java-Themen	4	17. Aug 2012
V	iText Textfelder mit Zahlen!	Allgemeine Java-Themen	2	24. Feb 2012
H	JTable per iText in PDF: Größenanpassung möglich?	Allgemeine Java-Themen	2	7. Jan 2012
M	itext Leerzeichen am ende unterstreichen	Allgemeine Java-Themen	4	8. Sep 2011
C	Wie kann man die IText Table Position bestimmen?	Allgemeine Java-Themen	3	8. Jul 2011
N	iText-Nutzung (Version 2.1.7) in kommerzieller Website	Allgemeine Java-Themen	8	4. Jul 2011
K	iText, HTML Einrückung im Document, aber nicht im Paragraph	Allgemeine Java-Themen	3	4. Jun 2011
B	iText Portable Collection Acrobat X	Allgemeine Java-Themen	2	28. Mai 2011
J	iText und images	Allgemeine Java-Themen	6	19. Mai 2011
S	iText PDF - Verständnisproblem beim Update von TableCells (Seitenzahlen)	Allgemeine Java-Themen	2	26. Apr 2011
T	iText Dokument in DB und dann in ein JPanel	Allgemeine Java-Themen	5	26. Feb 2011
N	iText Problem beim verlinken anderer PDFs	Allgemeine Java-Themen	2	27. Jan 2011
G	itext BarcodeDatamatrix	Allgemeine Java-Themen	4	12. Okt 2010
F	IText Table ohne Rand	Allgemeine Java-Themen	5	29. Sep 2010
P	Itext PDf wird zu groß	Allgemeine Java-Themen	8	12. Aug 2010
D	Tabellenbeschriftung im RTF-File mit IText erstellen???	Allgemeine Java-Themen	2	3. Aug 2010
D	pdf mit iText drucken	Allgemeine Java-Themen	4	26. Apr 2010
P	PDF erstellen ohne iText	Allgemeine Java-Themen	3	7. Apr 2010
	iText de facto nicht mehr verwendbar	Allgemeine Java-Themen	15	30. Mrz 2010
D	tiff (->komprimieren)-> iText(pdf)	Allgemeine Java-Themen	2	15. Jan 2010
	Itext - Anordnung von Elementen durch PDF Writer	Allgemeine Java-Themen	2	9. Nov 2009
Z	iText - 2. Seite pdf	Allgemeine Java-Themen	7	31. Okt 2009
W	itext: Initialer Abstand in einem Dokument	Allgemeine Java-Themen	2	16. Okt 2009
T	Deckblatt im iText realisieren...	Allgemeine Java-Themen	5	21. Sep 2009
T	JXPanel mit seinen Komponenten auf PDF mit iText ausgeben	Allgemeine Java-Themen	15	8. Sep 2009
T	IText: Zwei A4 PDF´s auf ein A3 PDF´s	Allgemeine Java-Themen	2	12. Aug 2009
A	Itext: Fonts einbetten	Allgemeine Java-Themen	1	6. Aug 2009
A	Dynamische PDF Erstellung mit iText	Allgemeine Java-Themen	4	2. Aug 2009
D	itext & Stringlänge	Allgemeine Java-Themen	10	8. Mai 2009
G	iText Kursiv/Fett mit IText	Allgemeine Java-Themen	3	4. Okt 2008
F	Probleme mit iText	Allgemeine Java-Themen	3	4. Sep 2008
R	Pdf öffnen, das von iText erstellt wurde	Allgemeine Java-Themen	4	20. Aug 2008
D	iText und Table.setTableFitsPage(); geht nicht	Allgemeine Java-Themen	12	31. Jul 2008
R	Pfad zu PDF bei iText in Webapps	Allgemeine Java-Themen	4	31. Jul 2008
D	Probleme beim Umstellen von iText 1.4.4 auf Version 2.1.2	Allgemeine Java-Themen	5	25. Jun 2008
G	itext größe von image	Allgemeine Java-Themen	2	30. Mai 2008
J	itext cell border	Allgemeine Java-Themen	1	27. Mai 2008
E	Aus mehreren PDFs eines machen, zusammenfügen mittels iText	Allgemeine Java-Themen	1	17. Mai 2008
T	Java Applet PDF erstellen mit iText, Probleme mit Pfad	Allgemeine Java-Themen	1	12. Mai 2008
J	Itext , Spaltenbreite automatisch anpassen ?	Allgemeine Java-Themen	4	20. Mrz 2008
	iText und Drucken	Allgemeine Java-Themen	5	14. Mrz 2008
J	Itext Seite drehen ?	Allgemeine Java-Themen	4	14. Mrz 2008
S	iText	Allgemeine Java-Themen	10	16. Nov 2007
A	Probleme mit iText - Text in Zellen ist zu lang	Allgemeine Java-Themen	7	7. Nov 2007
P	RTF dynamisch machen (IText, Swing)	Allgemeine Java-Themen	4	15. Okt 2007
L	iText: Mehrseitiges PDF erzeugen	Allgemeine Java-Themen	9	6. Sep 2007
L	Per IText erstelltes PDF automatisch drucken	Allgemeine Java-Themen	13	4. Jun 2007
V	Itext - "Seite . von " ausgeben	Allgemeine Java-Themen	6	23. Mai 2007
G	iText: Problem beim Drucken von AcroFormen	Allgemeine Java-Themen	2	27. Jan 2007
B	Probleme mit itext	Allgemeine Java-Themen	2	19. Jan 2007
T	iText + neue Seite	Allgemeine Java-Themen	14	21. Nov 2006
K	JFreeChart und itext: Bildprobleme	Allgemeine Java-Themen	4	9. Nov 2006
G	iText: Wie stellt man die Höhe eines Strings fest?	Allgemeine Java-Themen	3	3. Dez 2005
V	Lösung mit iText gesucht.	Allgemeine Java-Themen	2	22. Sep 2005
Z	Frage zu iText	Allgemeine Java-Themen	2	24. Aug 2005
A	Übergroße Graphics2D mit iText als PDF schreiben	Allgemeine Java-Themen	3	16. Nov 2004
D	iText: Tabelle in Footer einfügen	Allgemeine Java-Themen	6	23. Sep 2004
R	iText: PDF-Datei erzeugen	Allgemeine Java-Themen	2	8. Sep 2004
P	iText unter Linux zum Laufen bringen	Allgemeine Java-Themen	4	3. Sep 2004
R	iText.jar wird zur Laufzeit nicht gefunden	Allgemeine Java-Themen	4	2. Sep 2004
L	editieren von pdf mit iText	Allgemeine Java-Themen	2	24. Aug 2004
S	iText - Java meets PDF	Allgemeine Java-Themen	5	16. Dez 2003
	Anagram für beliebiges Wort	Allgemeine Java-Themen	2	28. Jan 2021
	Wie kann ich das Wort "concrete" in einem String durch ein anderes Wort ersetzen lassen?	Allgemeine Java-Themen	5	2. Feb 2020
	Wie oft wird ein Buchstabe in einem Wort wiederholt?	Allgemeine Java-Themen	16	28. Nov 2016
T	Textarea nach nur 1 wort durchsuchen	Allgemeine Java-Themen	3	5. Aug 2016
D	Regex: Komplettes Wort bekommen	Allgemeine Java-Themen	3	21. Dez 2015
M	Methode um ein Wort raus zu schneiden?	Allgemeine Java-Themen	3	6. Dez 2013
J	Doppelte Buchstaben löschen - letztes Wort macht er nicht	Allgemeine Java-Themen	2	11. Nov 2013
H	Scanner soll einen Inputredirect einlesen, liest aber nicht jedes Wort ein.	Allgemeine Java-Themen	3	14. Mai 2012
B	Gesplittetes Wort zusammenfügen	Allgemeine Java-Themen	7	25. Mrz 2012
M	Ein bestimmtes Wort in einem Text zählen (String in String)	Allgemeine Java-Themen	9	21. Feb 2012
D	Wort in Text mit >100.000 Wörter finden	Allgemeine Java-Themen	7	6. Okt 2011
F	Char-Array nach einem Wort durchsuchen!	Allgemeine Java-Themen	11	30. Dez 2009
G	Wort am Bildschirm -- Koordinaten suchen	Allgemeine Java-Themen	2	2. Jun 2008
D	readChar; wort abspeichern :(	Allgemeine Java-Themen	5	17. Feb 2008
A	Wort in seine Buchstaben zerlegen	Allgemeine Java-Themen	37	13. Okt 2007

PDF iText Wort Koordinaten auslesen

4a61766120617274697374

Mitglied

Robat

Top Contributor

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen