Apache Tika: Warnmeldungen und Beispielcode

MiMa

Top Contributor
Hallo,
Seit Apachte Tike Version 1.16 hagelt es von roten Warnmeldungen.
Code:
Sep 28, 2017 5:02:38 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem
WARNUNG: JBIG2ImageReader not loaded. jbig2 files will be ignored
See https://pdfbox.apache.org/2.0/dependencies.html#jai-image-io
for optional dependencies.
TIFFImageWriter not loaded. tiff files will not be processed
See https://pdfbox.apache.org/2.0/dependencies.html#jai-image-io
for optional dependencies.
J2KImageReader not loaded. JPEG2000 files will not be processed.
See https://pdfbox.apache.org/2.0/dependencies.html#jai-image-io
for optional dependencies.

Sep 28, 2017 5:02:38 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem
WARNUNG: org.xerial's sqlite-jdbc is not loaded.
Please provide the jar on your classpath to parse sqlite files.
See tika-parsers/pom.xml for the correct version.
Was ich darüber finden konnte und gelesen habe, ist das Tika nun auch OCR Erkennung durchführen können soll und daher diese Bibliotheken benötigt.
Also geladen und in das Projekt eingebunden. Leider konnte ich kaum etwas dazu finden, wie man diese Meldungen weg bekommen kann. Viel englische Seiten, von denen ich kaum was verstanden habe.
Zurück zur Version 1.13 habe ich die Medlungen nicht mehr. Aber mit einer alten Bibliothek möchte ich nicht so gerne weiter Entwicklen, da es früher oder später doch zur aktuellen Bibliothek kommen wird.

Auch habe ich das Problem der Erkennung der Sprache
Java:
LanguageIdentifier identifier = new LanguageIdentifier("Text Mit Leerzeichen");
        String language = identifier.getLanguage();
        System.out.println("Language of the given content is : " + language);
Der Code funktioniert zwar aber LanguageIdentifier ist durchgestrichen (depricated).
Auch in den Beispielcode von Tika 1.16 ist alter Code so wie diesen.
Kann mir vielleicht jemand sagen, wie das jetzt funktionieren soll?
Auch habe ich mal einen Codeschnipsel gefunden, der aber nicht funktioniert.
Ich würde mich freuen, wenn mir jemand helfen würde.
Vielen Dank
M
 

mrBrown

Super-Moderator
Mitarbeiter
Was ich darüber finden konnte und gelesen habe, ist das Tika nun auch OCR Erkennung durchführen können soll und daher diese Bibliotheken benötigt.
Also geladen und in das Projekt eingebunden. Leider konnte ich kaum etwas dazu finden, wie man diese Meldungen weg bekommen kann. Viel englische Seiten, von denen ich kaum was verstanden habe.
Zurück zur Version 1.13 habe ich die Medlungen nicht mehr. Aber mit einer alten Bibliothek möchte ich nicht so gerne weiter Entwicklen, da es früher oder später doch zur aktuellen Bibliothek kommen wird.
Wie bindest du es ein?


Der Code funktioniert zwar aber LanguageIdentifier ist durchgestrichen (depricated).
Auch in den Beispielcode von Tika 1.16 ist alter Code so wie diesen.
Kann mir vielleicht jemand sagen, wie das jetzt funktionieren soll?
Auch habe ich mal einen Codeschnipsel gefunden, der aber nicht funktioniert.
Ich würde mich freuen, wenn mir jemand helfen würde.
Einfach mal ins JavaDoc gucken ;)
https://tika.apache.org/1.16/api/org/apache/tika/language/LanguageIdentifier.html hat gesagt.:
Deprecated.
use a concrete class of LanguageDetector
 

MiMa

Top Contributor
Das JavaDoc Hilft auch nicht weiter, da es nicht verfügbar ist.
Ich habe schon geschaut, aber scheibar gibt es kein JavaDoc für Tika zu Laden.
In der API habe ich auch schon geschaut, aber dort wird es als Deprecated gekennzeichnet.
Alles was mit LanguageIdentifier zu tun hat ist überholt.

Danke für den LanguageDetector.
Wo holt man solche Informationen her?
 

mrBrown

Super-Moderator
Mitarbeiter
Das JavaDoc Hilft auch nicht weiter, da es nicht verfügbar ist.
Ich habe schon geschaut, aber scheibar gibt es kein JavaDoc für Tika zu Laden.
In der API habe ich auch schon geschaut, aber dort wird es als Deprecated gekennzeichnet.
Alles was mit LanguageIdentifier zu tun hat ist überholt.
Das ist jetzt zwar ziemlich spoiler, aber wie wäre es mit diesem JavaDoc: https://tika.apache.org/1.16/api/org/apache/tika/language/LanguageIdentifier.html (was oben beim Zitat dabei steht, wo übrigens auch bei steht, was man stattdessen nutzen sollte...)

Und noch mal die Frage, wie bindest du das ein?


Was ist btw die Api, in der du geschaut hast?
 

MiMa

Top Contributor
Ich habe zwar in der 1.13 Api Dokumentation nachgeschaut, aber da steht das gleiche drin wie in Deinem Link. Mit dem JavaDoc zum Donwloaden haben wir uns missverstanden. Ich meinte das JavaDoc welches ich in der IDE einbinden kann, damit ich die Dokumentation zu sehen bekomme, wenn ich Methoden und deren Parameter einsetzen möchte.

Beim genaueren hinsehen habe ich gesehen wo steht was man stattdessen bensutzen soll. Ist leicht zu übersehen, so klein bei den vielen Text.

Bezüglich der Einbindung habe ich die Jar Dateien in die Bibliothek hinzugefügt.
Da die in den Klassen eh nicht benutzt werden, müssen die auch nicht importiert werden?

Vielen Dank
 

mrBrown

Super-Moderator
Mitarbeiter
Du solltest dich mal mit Maven vertraut machen, darüber gibt es dann garantiert auch das passende JavaDoc ;)
 

MiMa

Top Contributor
Ja da habe ich schon lange drüber nach gedacht, das Maven zu nutzen. Habe gerade Git am laufen bekommen und den Umgang damit gelernt. Vor Maven habe ich mich bisher erfolgreich gedrückt, das es mir auf den ersten Blick ziemlich Kompliziert aussah.

Ich schau mal ob es irgendwo eine deutsche anleitung für Maven gibt, die ich verstehen kann. :)
 

mrBrown

Super-Moderator
Mitarbeiter
Die Einstiegshürde fand ich persönlich leichter als bei git, grad wenn man eine IDE nutzt, die einen so ziemlich alles abnimmt - irgendwas sollte man dazu finden ;)
 

MiMa

Top Contributor
Habe mit Netbeans jetzt mal eine Java Maven Projekt gemacht.
Passen Dazu schaue ich im Netbeans Wiki und bei Youtube, wede mich dann wieder melden.
 

MiMa

Top Contributor
Das mit Maven war ja doch nicht so schwer, ein bischen Übung noch und wird gehen.
Habe meine Klassen in das neue Maven-Projekt kopiert und in den Abhängigkeiten wurden Tika und Log4j hinzugefügt. Was mich aber wundert, das er tika-app-1.11 und log4j 1.7.12 hinzugefügt hat?
Nimmt er nicht die aktuellsten Versionen?

Auch hier funktioniert das JavaDoc beim programmieren nicht?
Ich erhalte die Information:
Entweder existiert die Javadoc-Dokumentation für dieses Objekt nicht, oder das entsprechende Javadoc wurde nicht in der Plattform- bzw. Bibliotheksverwaltung spezifiziert.
Ist Tika nicht ausreichend Dokumentiert?
Das würde ich dann ziemlich ungewöhnlich finden!

Die Roten Warnmeldungen sind weg, ist ja auch klar, wenn Tika 1.11 verwendet wird. Kann ich das beeinflussen, das die aktuellste Version verwendet werden soll?
 
Zuletzt bearbeitet:

MiMa

Top Contributor
Ich denke ich habe es geschafft o_O
Die Lösung liegt in der pom.xml
Dort habe ich den Abschnitt der Abhängigkeiten geändert von
Code:
<dependencies>
        <dependency>
            <groupId>org.apache.tika</groupId>
            <artifactId>tika-app</artifactId>
            <version>1.11</version>
            <type>jar</type>
        </dependency>
    </dependencies>
geänder in
Code:
<dependencies>
        <dependency>
            <groupId>org.apache.tika</groupId>
            <artifactId>tika-app</artifactId>
            <version>1.16</version>
            <type>jar</type>
        </dependency>
    </dependencies>
Nach dem Speichern wurden jede Menge Fehler im Projekt angezeigt.
Nach der Ausführung von Maven wurden die Pakete nachgeladen und der Quellcode automatisch angepasst. Nach dem Start des Projektes gabe es keine roten Warnmeldungen von Tika mehr trotz der Version 1.16.

Die JavaDoc Dokumentation für Objekte beim Programmieren fehlt nach wie vor?
Anscheinend wurde kein Wert auf die Dokumentierung gelegt?
Vielen Dank für die Hilfe :)
 

mrBrown

Super-Moderator
Mitarbeiter
Doch, die Doku gibts und ist auch über Maven verfügbar.
Vermutlich muss man in der IDE noch einstellen, dass JavaDoc zusätzlich geladen wird, bei Netbeans kenn ich mich da aber nicht aus
 

MiMa

Top Contributor
Danke für den Hinweis.
Nach längeren suchen hab ich es dann auch gefunden.
Im Projekt gibt es das Verzeichnis Anhängigkeiten.
Einen Rechtsklick darauf und es öffnet sich ein Untermenü.
Dort den Menüpunkt JavaDoc herunterladen auswählen.
Jetzt ist es auch bei der Programmierung bei Objekten enthalten und vereinfacht vieles.
Vielen Dank
 
Ähnliche Java Themen
  Titel Forum Antworten Datum
M Apache Proxy Weiterleitung auf Tomcat funktioniert nicht wie gewünscht Allgemeine Java-Themen 1
T Logging mit org.apache.logging.log4j Allgemeine Java-Themen 1
E Ersetzen eines Bildes in der Kopfzeile eines Word-Docx-Dokuments mit Apache POI XWPF Allgemeine Java-Themen 0
H Apache fop -- welche Möglichkeit gibt es um den Fortschritt anzuzeigen (Progressbar) Allgemeine Java-Themen 5
H Apache fop - OutOfMemoryError Allgemeine Java-Themen 10
B Schnittstelle zwischen MySQL und Apache Allgemeine Java-Themen 8
O Wie kann ich in Apache POI (Excel Dateien schreiben) Datumszellen in Excel erzeugen Allgemeine Java-Themen 6
F Fehlermeldung: java.lang.NoClassDefFoundError: org/apache/commons/net/ntp/NTPUDPClient Allgemeine Java-Themen 6
N Apache POI/ neue Reihe in Excel mit einem Button Allgemeine Java-Themen 2
I Apache POI Bild in Word ersetzen Allgemeine Java-Themen 15
O xlsx Datei auslesen mit POI Apache liest keine LEERZELLEN Allgemeine Java-Themen 6
O xlsx Datei auslesen mit POI von Apache wirft seltsamen Fehler. Allgemeine Java-Themen 11
L APACHE POI PIVOT TABELLEN Allgemeine Java-Themen 4
L Apache POI Datenquelle Allgemeine Java-Themen 1
S Apache POI Filtern nach bestimmten Kriterium Allgemeine Java-Themen 1
L JavaFX JavaFX Chart in Apache Poi Excel Datei Allgemeine Java-Themen 2
F Operationen/Methoden einen WebService im Browser mit Apache Axis aufrufen Allgemeine Java-Themen 4
F Input/Output NullPointerException, aber wieso? [Apache POI] Allgemeine Java-Themen 11
F Input/Output NullPointerException with Apache POI Allgemeine Java-Themen 7
E HILFE !! Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/io/FileUtils Allgemeine Java-Themen 4
J Apache POI - No external workbook with name Allgemeine Java-Themen 5
M Suche aktuelle Apache Poi Bibliothek zum Einbinden in mein Programm Allgemeine Java-Themen 2
X Performance für Tomcat / Apache optimieren Allgemeine Java-Themen 2
G Ant Probleme bei einer Installation die Apache ant+ivy verwendet Allgemeine Java-Themen 14
FrittenFritze Swing Apache Batik - Zoom an einer bestimmten Stelle Allgemeine Java-Themen 4
K Apache poi: Deprecated getCellType Allgemeine Java-Themen 3
J Apache POI Excel- Blattschutz aufheben Allgemeine Java-Themen 2
I Apache POI Word Text einfügen Allgemeine Java-Themen 26
T Geschlossen: Apache POI - Excel einlesen Allgemeine Java-Themen 0
K Apache POI Word Tabelle Zellen verbinden Allgemeine Java-Themen 4
K Apache POI Word Tabelle Spaltenbreite festlegen Allgemeine Java-Themen 7
K Apache POI Word bestimmte Textstellen bearbeiten Allgemeine Java-Themen 1
R Apache POI XSSF Allgemeine Java-Themen 2
E Apache POI Powerpoint Verlinkungen ändern Allgemeine Java-Themen 4
T xls-Datei per Apache Commons CsvParser einlesen UTF-8 Zeichen russische Zeichen Allgemeine Java-Themen 2
zer0zer0 Best Practice apache common cli - optionen für hilfe ausblenden Allgemeine Java-Themen 5
S Eclipse Apache Camel FTP: Fehlerbehandlung, wie? Allgemeine Java-Themen 2
H Excel Datei einlesen mit Apache POI Allgemeine Java-Themen 1
GianaSisters Apache POI - Hyperlink erstellen Allgemeine Java-Themen 0
reibi Apache PDFBox Allgemeine Java-Themen 0
T Mit Apache Poi Daten aus einer Excel Tabelle kopieren und in Word einfügen Allgemeine Java-Themen 1
C Was bekomme ich eine Nullpointerexception? (Apache POI) Allgemeine Java-Themen 3
S OOP Apache Commons Math - Verwendung von Genetics - Wie werden Daten in Chromosomen gespeichert? Allgemeine Java-Themen 4
H Apache POI HSSF - Farbe/Rahmen etc. ohne Style-Vorlage? Allgemeine Java-Themen 4
E Apache POI-Datei lesen und umschreiben Allgemeine Java-Themen 8
G Input/Output Apache POI Excel Allgemeine Java-Themen 5
L Apache CLI: Args[] übergeben Allgemeine Java-Themen 3
P docx mit Apache POI auslesen, verändern und zurückschreiben Allgemeine Java-Themen 2
N Applet Apache Poi Wert einer Formel ausgeben Allgemeine Java-Themen 5
L Apache Common CLI Allgemeine Java-Themen 4
J Webstart (auf Apache) jnlp wird nicht geladen Allgemeine Java-Themen 2
S HTTP Apache HTTPClient Problem Allgemeine Java-Themen 4
R org.apache.http kompletter Internetausfall Allgemeine Java-Themen 7
J xlsx Dateien lesen OHNE apache POI Allgemeine Java-Themen 6
V Für was benötigt man Apache Common Allgemeine Java-Themen 3
V Apache POI Excel Datum auslesen Allgemeine Java-Themen 6
V Apache POI Excel Sheet auslesen Allgemeine Java-Themen 5
B Problem mit RegEs und org.apache.regexp.RE Allgemeine Java-Themen 5
T Apache POI Export EXCEL - [Zahlen-Werte] Allgemeine Java-Themen 1
Landei Erfahrungen mit JavaConfig oder Apache Commons Config? Allgemeine Java-Themen 3
J Apache FTPClient upload Allgemeine Java-Themen 3
A Apache License, Version 2.0 Allgemeine Java-Themen 7
S Bzip2 apache commons-compress Allgemeine Java-Themen 3
Chris81T Apache FOP 0.20-5 mit JNI von C++ Code aufrufen Allgemeine Java-Themen 8
C Apache POI(HSSF) Conditional Formatting Allgemeine Java-Themen 3
G Apache soll mit SVN zusammenarbeiten Allgemeine Java-Themen 3
E Apache Commons - PropertyConfiguration - Autosave Allgemeine Java-Themen 2
G Servlet über apache Tomcat ansprechen Allgemeine Java-Themen 6
alexpetri DirectoryWalker apache.commons Allgemeine Java-Themen 3
S Apache Commons Net geht nicht Allgemeine Java-Themen 5
G mit Apache-Jakarta-POI auch Graphiken aus Excel einlesen? Allgemeine Java-Themen 3
T Apache Lucene Allgemeine Java-Themen 2
Q Ant und org.apache.log4j.xml.DOMConfigurator Problem Allgemeine Java-Themen 2
M Java Webserver - Tomcat alleine oder zusammen mit Apache? Allgemeine Java-Themen 3

Ähnliche Java Themen

Neue Themen


Oben