Hallo liebe Gemeinde,
Erst einmal ganz liebe Grüße von mir an das Forum als neu registrierte Nutzerin.
Ich bin eine mittelmäßig erfahrene PHP Hobby-Entwicklerin, die schon das eine oder andere kleine Tool mit PHP/mySQL hinbekommen hat und nun vor der Herausforderung steht Platform übergreifend ein kleines Tool zur Verfügung zu stellen, mit dem man einen bereits vorgefertigten formatierten Text, der sich in einer PDF Datei befindet so auszuwerten, dass nachher ein Array mit den Absätzen und Überschriften etc. als separate Values zur Übergabe in eine Datenbank oder in ein Spreadsheet zur Verfügung stehen. Das Prinzip der String Auswertung (zumindest in PHP) habe ich soweit verstanden und auch schon erfolgreich eingesetzt, und dass man (zumindest in diesem Fall) anhand der Returns und gewisser String-Vorkommen wie UPPERCASE (bei den Titeln) etc. zumindest schon einmal Unterscheidungen zwischen Überschrift und Untertext machen kann (sofern der Text das vorgibt, was er tut). Aber da PHP halt selten auf Desktop Rechnern vorinstalliert (Apache Umgebung) ist und LibreOffice Nutzer (wir sind Studenten) die mit Base arbeiten, eh eine JRE vorinstalliert haben müssen, bietet sich halt die Fragean, ob das mit JAVA ginge, am ehesten an.
Vorerst war die Überlegung noch ob eine .txt Datei mehr Sinn machen würde als denn ein PDF, aber das Programm welches den .txt Export als formatierte Text Datei oder PDF anbietet, regelt bei der txt. Export Variante die Links-Einzüge über Lehrzeichen und davor befindlichen Returns am Ende jeder Zeile, selbst dann wenn da eigentlich kein Return im Fließtext wäre. Die Texte sind schon mit dem Hintergedanken verpflichtend so geschrieben, dass man eine gute Unterscheidung der Textgruppen machen kann: Title sind alle UPPERCASE und enden mit einem Return. Die Texte darunter enthalten nur am Ende ein Return bevor der nächste TITLE kommt, etc.
Meine vorsichtige Frage (wenn ihr gestattet) an euch wäre: ist so etwas grundsätzlich mit JAVA möglich oder sollte ich das eher in einer Vorverarbeitung als drei verschiedene Shell Scripte (PC,MAC,Linux) PDF to csv anbieten? Ist JAVA da eher zu umständlich für? Und wenn es mit JAVA möglich ist, habt ihr vielleicht einen Link oder Hint, wie ich da weiterkommen könnte? (also wo ich nachlesen und lernen kann?) Ich habe das Gefühl, meine Kenntnis über Auswertung von Strings und die aufgeteilte Übergabe in Arrays wie ich es aus PHP kenne, hilft mir da garnicht weiter, und im Netz hab ich halt schon Sachen (Klassen etc.) gefunden wie PDFBox, iText, PDFTextStream. Aber da habe ich das Gefühl ich schieße mit Kanonenkugeln auf Spatzen, da ich ja eigentlich ersteinmal "NUR" :bahnhof: alle im PDF vorkommenden "Textboxen" wertfrei jeweils als einzelne Strings-Schnipsel in Array Values übergeben möchte und dann erst eine "simple" Unterscheidung/Überprüfung der Values anhand von UPPERCASE etc. machen wollte.
Sorry, ist sehr lang geworden. Ich hoffe jemand von euch hat die Muße mir ein zwei HInts zu geben :rtfm: :autsch:
Ganz liebe Grüße ....
Erst einmal ganz liebe Grüße von mir an das Forum als neu registrierte Nutzerin.
Vorerst war die Überlegung noch ob eine .txt Datei mehr Sinn machen würde als denn ein PDF, aber das Programm welches den .txt Export als formatierte Text Datei oder PDF anbietet, regelt bei der txt. Export Variante die Links-Einzüge über Lehrzeichen und davor befindlichen Returns am Ende jeder Zeile, selbst dann wenn da eigentlich kein Return im Fließtext wäre. Die Texte sind schon mit dem Hintergedanken verpflichtend so geschrieben, dass man eine gute Unterscheidung der Textgruppen machen kann: Title sind alle UPPERCASE und enden mit einem Return. Die Texte darunter enthalten nur am Ende ein Return bevor der nächste TITLE kommt, etc.
Meine vorsichtige Frage (wenn ihr gestattet) an euch wäre: ist so etwas grundsätzlich mit JAVA möglich oder sollte ich das eher in einer Vorverarbeitung als drei verschiedene Shell Scripte (PC,MAC,Linux) PDF to csv anbieten? Ist JAVA da eher zu umständlich für? Und wenn es mit JAVA möglich ist, habt ihr vielleicht einen Link oder Hint, wie ich da weiterkommen könnte? (also wo ich nachlesen und lernen kann?) Ich habe das Gefühl, meine Kenntnis über Auswertung von Strings und die aufgeteilte Übergabe in Arrays wie ich es aus PHP kenne, hilft mir da garnicht weiter, und im Netz hab ich halt schon Sachen (Klassen etc.) gefunden wie PDFBox, iText, PDFTextStream. Aber da habe ich das Gefühl ich schieße mit Kanonenkugeln auf Spatzen, da ich ja eigentlich ersteinmal "NUR" :bahnhof: alle im PDF vorkommenden "Textboxen" wertfrei jeweils als einzelne Strings-Schnipsel in Array Values übergeben möchte und dann erst eine "simple" Unterscheidung/Überprüfung der Values anhand von UPPERCASE etc. machen wollte.
Sorry, ist sehr lang geworden. Ich hoffe jemand von euch hat die Muße mir ein zwei HInts zu geben :rtfm: :autsch:
Ganz liebe Grüße ....
Zuletzt bearbeitet: