Aktuelle arbeite ich meinen JavaCode auf der mit dem Apache Tika Framework zusammenarbeitet.
Mit Tika 1.16 und PDFBox 2.0.0.-RC3 funktionieren meine Methoden (Damals mit Netbeans über JAR files heite über Maven in IntelliJ)
Gekürzte Fassung
Ich benutze immer Log4j2 umd das Logging zu nutzen.
Type 2 GSUB lookup table sind eine Art von GSUB-Tabellen (Glyphtabelle für Substitutionen) im OpenType-Schriftformat die nicht unterstützt werden.
AcroForm content weist auf einen Inhalt eines AcroFormulars (Asufüllbare Formulare)
No PostScript name information, weist drauf in das keine PostScript-Nameninformationen für die Schriftart ArialMT bereitgestellt wurden.
DEBUG org.apache.fontbox.ttf.GlyphSubstitutionTable - Type 6/4 GSUB lookup table is not supported and will be ignored, eine Art von GSUB-Tabellen die nicht unterstützt werden.
All diese dinge benötige ich im grunde nicht weis jemand wie man diese Funktionen separat ein oder aus stellen kann.
Ich bestrebe immer an Ausgaben in de rKonsole zu vermeiden, besondert wenn diese komplett rot geschrieben sind auch wenn es nur informationen sind.
Auch diese GSUB würde ich auch gerne aus dem LOG habe.
Das wird mit Tika 2.9.0 auch nicht besser.
Ich würde mich freuen wenn mir jemand helfe könnte der sich mit Tika und auskennt.
Vielen Dank
Mit Tika 1.16 und PDFBox 2.0.0.-RC3 funktionieren meine Methoden (Damals mit Netbeans über JAR files heite über Maven in IntelliJ)
Gekürzte Fassung
Mit Tika 1.25 und PDFBox 2.0.25 erhalte ich folgedne Ausgabe in der Konsole, welche deutlich kürzer geworden istSLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/C:/Users/Michael/.m2/repository/org/apache/tika/tika-app/1.16/tika-app-1.16.jar!/org/slf4j/impl/StaticLoggerBinder.class]
....
Apr. 01, 2024 8:42:17 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem
WARNUNG: JBIG2ImageReader not loaded. jbig2 files will be ignored
...
TIFFImageWriter not loaded. tiff files will not be processed
S...
Apr. 01, 2024 8:42:17 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem
WARNUNG: org.xerial's sqlite-jdbc is not loaded.
Please provide the jar on your classpath to parse sqlite files.
See tika-parsers/pom.xml for the correct version.
INFO OpenType Layout tables used in font CIDFont+F1 are not implemented in PDFBox and will be ignored
INFO OpenType Layout tables used in font CIDFont+F1 are not implemented in PDFBox and will be ignored
Mit Tika 1.28.4 und PDFBox 2.0.25SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/C:/Users/Michael/.m2/repository/org/apache/tika/tika-app/1.25/tika-app-1.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/C:/Users/Michael/.m2/repository/org/slf4j/slf4j-log4j12/1.7.28/slf4j-log4j12-1.7.28.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
Apr. 01, 2024 8:47:23 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem
WARNUNG: J2KImageReader not loaded. JPEG2000 files will not be processed.
See https://pdfbox.apache.org/2.0/dependencies.html#jai-image-io
for optional dependencies.
Und im Logfile tauch plötzlich Jede Menge Zeilen auf mit (gekürzte Fassung)SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/C:/Users/Michael/.m2/repository/org/apache/tika/tika-app/1.28.4/tika-app-1.28.4.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/C:/Users/Michael/.m2/repository/org/apache/logging/log4j/log4j-slf4j-impl/2.17.2/log4j-slf4j-impl-2.17.2.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]
Apr. 01, 2024 8:54:11 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem
WARNUNG: J2KImageReader not loaded. JPEG2000 files will not be processed.
See https://pdfbox.apache.org/2.0/dependencies.html#jai-image-io
for optional dependencies.
Apr. 01, 2024 8:54:11 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem
WARNUNG: org.xerial's sqlite-jdbc is not loaded.
Please provide the jar on your classpath to parse sqlite files.
See tika-parsers/pom.xml for the correct version.
Mir ist nicht bewust das ich SLF4J-Bindungen verwende, davon habe ich noch nie gehört.DDocumentCatalog - AcroForm content has already been retrieved with fixes applied - original content changed because of that
2024-04-01 20:54:11 [main] DEBUG org.apache.fontbox.ttf.PostScriptTable - No PostScript name information is provided for the font ArialMT
2024-04-01 20:54:11 [main] DEBUG org.apache.fontbox.ttf.GlyphSubstitutionTable - Type 6 GSUB lookup table is not supported and will be ignored
2024-04-01 20:54:11 [main] DEBUG org.apache.fontbox.ttf.GlyphSubstitutionTable - Type 4 GSUB lookup table is not supported and will be ignored
...
hSubstitutionTable - Type 2 GSUB lookup table is not supported and will be ignored
2024-04-01 20:54:11 [main] DEBUG org.apache.pdfbox.pdmodel.PDDocumentCatalog - AcroForm content has already been retrieved with fixes applied - original content changed because of that
2024-04-01 20:54:11 [main] DEBUG org.apache.pdfbox.pdmodel.PDDocumentCatalog - AcroForm content has already been retrieved with fixes applied - original content changed because of that
2024-04-01 20:54:11 [main] INFO de.bibliothekenmm.dateien.Datei - Der Inhalt wurde in die Instanzvariable "inhalt" extrahiert
2024-04-01 20:54:11 [main] INFO de.bibliothekenmm.dateien.Datei - Der Die Datei enthält "498" Zeichen mit Leerzeichen
2024-04-01 20:54:11 [main] DEBUG org.apache.pdfbox.pdmodel.PDDocumentCatalog - AcroForm content has already been retrieved with fixes applied - original content changed because of that
2024-04-01 20:54:11 [main] DEBUG org.apache.fontbox.ttf.PostScriptTable - No PostScript name information is provided for the font ArialMT
2024-04-01 20:54:11 [main] DEBUG org.apache.fontbox.ttf.GlyphSubstitutionTable - Type 6 GSUB lookup table is not supported and will be ignored
2024-04-01 20:54:11 [main] DEBUG org.apache.fontbox.ttf.GlyphSubstitutionTable - Type 4 GSUB lookup table is not supported and will be ignored
...
Ich benutze immer Log4j2 umd das Logging zu nutzen.
Type 2 GSUB lookup table sind eine Art von GSUB-Tabellen (Glyphtabelle für Substitutionen) im OpenType-Schriftformat die nicht unterstützt werden.
AcroForm content weist auf einen Inhalt eines AcroFormulars (Asufüllbare Formulare)
No PostScript name information, weist drauf in das keine PostScript-Nameninformationen für die Schriftart ArialMT bereitgestellt wurden.
DEBUG org.apache.fontbox.ttf.GlyphSubstitutionTable - Type 6/4 GSUB lookup table is not supported and will be ignored, eine Art von GSUB-Tabellen die nicht unterstützt werden.
All diese dinge benötige ich im grunde nicht weis jemand wie man diese Funktionen separat ein oder aus stellen kann.
Ich bestrebe immer an Ausgaben in de rKonsole zu vermeiden, besondert wenn diese komplett rot geschrieben sind auch wenn es nur informationen sind.
Auch diese GSUB würde ich auch gerne aus dem LOG habe.
Muss ich jetzt alle zusätzlichen Programme wie tesseract, exiftool, ffmpeg usw einbinden?Mit Tika 2.5.0 sind die roten Meldungen aus der Konsole verschwunden jedoch erhalte ich im Log jede Menge grüne, weisse und Lila einträge wie?
t(ProcessBuilder.java:1140) ~[?:?]
at java.lang.ProcessBuilder.start(ProcessBuilder.java:1074) ~[?:?]
at java.lang.Runtime.exec(Runtime.java:647) ~[?:?]
at java.lang.Runtime.exec(Runtime.java:504) ~[?:?]
at org.apache.tika.parser.external.ExternalParser.check(ExternalParser.java:161) ~[tika-core-2.5.0.jar:?]
at org.apache.tika.parser.ocr.TesseractOCRParser.hasTesseract(TesseractOCRParser.java:187) ~[tika-app-2.5.0.jar:2.5.0]
at org.apache.tika.parser.ocr.TesseractOCRParser.initialize(TesseractOCRParser.java:529) ~[tika-app-2.5.0.jar:2.5.0]
at org.apache.tika.config.ServiceLoader.loadStaticServiceProviders(ServiceLoader.java:360) ~[tika-core-2.5.0.jar:?]
at org.apache.tika.parser.DefaultParser.getDefaultParsers(DefaultParser.java:105) ~[tika-core-2.5.0.jar:?]
at org.apache.tika.parser.DefaultParser.<init>(DefaultParser.java:52) ~[tika-core-2.5.0.jar:?]
at org.apache.tika.parser.DefaultParser.<init>(DefaultParser.java:66) ~[tika-core-2.5.0.jar:?]
at org.apache.tika.config.TikaConfig.getDefaultParser(TikaConfig.java:301) ~[tika-core-2.5.0.jar:?]
at org.apache.tika.config.TikaConfig.<init>(TikaConfig.java:243) ~[tika-core-2.5.0.jar:?]
at org.apache.tika.config.TikaConfig.getDefaultConfig(TikaConfig.java:358) ~[tika-core-2.5.0.jar:?]
at org.apache.tika.Tika.<init>(Tika.java:119) ~[tika-core-2.5.0.jar:?]
at de.michaelmadej.bibliothekenmm.dateien.Datei.ermittleMedienTypen(Datei.java:174) ~[classes/:?]
at de.michaelmadej.bibliothekenmm.dateien.DateiDaten.setTyp(DateiDaten.java:895) ~[classes/:?]
at TestCode.TestcodeDateien.ermittleDateiInhalte(TestcodeDateien.java:107) ~[classes/:?]
at TestCode.TestcodeDateien.main(TestcodeDateien.java:32) ~[classes/:?]
....
at java.lang.ProcessBuilder.start(ProcessBuilder.java:1140) ~[?:?]
at java.lang.ProcessBuilder.start(ProcessBuilder.java:1074) ~[?:?]
at java.lang.Runtime.exec(Runtime.java:647) ~[?:?]
at java.lang.Runtime.exec(Runtime.java:504) ~[?:?]
at org.apache.tika.parser.external.ExternalParser.check(ExternalParser.java:161) ~[tika-core-2.5.0.jar:?]
at org.apache.tika.parser.ocr.TesseractOCRParser.hasImageMagick(TesseractOCRParser.java:205) ~[tika-app-2.5.0.jar:2.5.0]
at org.apache.tika.parser.ocr.TesseractOCRParser.initialize(TesseractOCRParser.java:530) ~[tika-app-2.5.0.jar:2.5.0]
...
Caused by: java.io.IOException: CreateProcess error=2, Das System kann die angegebene Datei nicht finden
at java.lang.ProcessImpl.create(Native Method) ~[?:?]
at java.lang.ProcessImpl.<init>(ProcessImpl.java:500) ~[?:?]
at java.lang.ProcessImpl.start(ProcessImpl.java:159) ~[?:?]
at java.lang.ProcessBuilder.start(ProcessBuilder.java:1111) ~[?:?]
... 18 more
2024-04-01 21:11:43 [main] DEBUG org.apache.tika.parser.ocr.TesseractOCRParser - hasTesseract (path: [tesseract.exe]): false
2024-04-01 21:11:43 [main] DEBUG org.apache.tika.parser.external.ExternalParser - exception trying to run magick
java.io.IOException: Cannot run program "magick": CreateProcess error=2, Das System kann die angegebene Datei nicht finden
...
2024-04-01 21:11:43 [main] DEBUG org.apache.tika.parser.external.ExternalParser - exception trying to run exiftool
java.io.IOException: Cannot run program "exiftool": CreateProcess error=2, Das System kann die angegebene Datei nicht finden
..
2024-04-01 21:11:43 [main] DEBUG org.apache.tika.parser.external.ExternalParser - exception trying to run ffmpeg
java.io.IOException: Cannot run program "ffmpeg": CreateProcess error=2, Das System kann die angegebene Datei nicht finden
...
2024-04-01 21:11:43 [main] DEBUG org.apache.tika.parser.external.ExternalParser - exception trying to run exiftool
java.io.IOException: Cannot run program "exiftool": CreateProcess error=2, Das System kann die angegebene Datei nicht finden
...
2024-04-01 21:11:43 [main] DEBUG org.apache.tika.parser.external.ExternalParser - exception trying to run tesseract.exe
java.io.IOException: Cannot run program "tesseract.exe": CreateProcess error=2, Das System kann die angegebene Datei nicht finden
...
Das wird mit Tika 2.9.0 auch nicht besser.
Ich würde mich freuen wenn mir jemand helfe könnte der sich mit Tika und auskennt.
Vielen Dank