CSV mit Text und Binärdaten auslesen

Elenteria · 26. Apr 2019

Hallo zusammen,

Ich hab Folgendes Problem. Ich hab eine CSV Datei bekommen die ich auslesen und weiterverarbeiten muss. Soweit kein Problem. Das Problem ist das eine Spalte der CSV binärcodierte PDF Dateien enthält. in etwa so: "column1";"[binäre PDF Daten]";"pdf_datei_name";"colum3";"column4";"column5"; usw.

Mein bisheriger Ansatz war die Datei komplett als byte[] einzulesen, dann byte für byte durchzugehen und zu prüfen ob ich einen Zeilenumbruch finde, damit ich eine Zeile hab die ich dann Weiter in die Einzelnen Columns aufsplitten kann. Um zu Verhindern das ein Zeilenumbruch innerhalb der PDF-Daten als Zeilentrenner erkannt wird, prüfe ich ob das PDF Start-Tag bzw End-Tag verarbeitet hab. Solange ich in den PDF Daten bin Ignorier ich alle Zeichenübrüche. Die einzelne Zeile Verarbeite ich dann auf die gleiche Art, nur das ich hier nach einem Semikolon als Trennzeichen suche.
Leider sind die PDF-Dateien die bei mir am Ende Rauskommen nicht Lesbar und ich finde den Fehler nicht.

Mein Parser

Java:

import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;

import my_package.FileReader

public class CSVParser {

    private static final int LINE_BREAK = 10;
    private static final int SEMICOLON = 59;

    public List<CSVRow> parseFile(File csvFile) throws IOException {
        byte[] fileContent = new FileReader().readFile(csvFile);
        int rowStartIndex = 0;
        boolean isInPDFData = false;
        List<CSVRow> rows = new ArrayList<>();
        for(int i = 0; i < fileContent.length; i++) {
            if (fileContent[i] == LINE_BREAK && isInPDFData == false) {
                rows.add(parseRow(Arrays.copyOfRange(fileContent,rowStartIndex, i+1)));
                rowStartIndex = i;
            }
            else if (isPDFStart(fileContent, i)) {
                isInPDFData = true;
            }
            else if (isPDFEnd(fileContent, i) && isInPDFData) {
                isInPDFData = false;
            }
            if(rows.size() == 6) {
                break;
            }
        }
        return rows;
    }

    private CSVRow parseRow(byte[] data) {
        int columnStartIndex = 0;
        boolean isInPDFData = false;
        List<byte[]> columnData = new ArrayList<>();
        for(int i = 0; i < data.length; i++) {
            if (data[i] == SEMICOLON && isInPDFData == false) {
                columnData.add(Arrays.copyOfRange(data,columnStartIndex, i+1));
                columnStartIndex = i;
            }
            else if (isPDFStart(data, i)) {
                isInPDFData = true;
            }
            else if (isPDFEnd(data, i) && isInPDFData) {
                isInPDFData = false;
            }
        }
        byte[] fileData = Arrays.copyOfRange(columnData.get(1),2, columnData.get(1).length -2);
        String fileName = new String(columnData.get(2));
        return new CSVRow(fileName, fileData);
    }


    private boolean isPDFStart(byte[] fileContent, int i) {
        if(i - 5 < 0) {
            return false;
        }
        byte[]  b = Arrays.copyOfRange(fileContent,i-5, i);
        return new String(b).equals("%PDF-");
    }

    private boolean isPDFEnd(byte[] fileContent, int i) {
        if(i -7 < 0) {
            return false;
        }
        byte[]  b = Arrays.copyOfRange(fileContent,i-7, i);
        return new String(b).equals("%%EOF\\\n");
    }

}

Filewriter

Java:

import java.io.FileOutputStream;
import java.io.IOException;

public class FileWriter {

    public void writeFile(String fileName, byte[] data) throws IOException {
        FileOutputStream outputStream = new FileOutputStream(fileName);
        outputStream.write(data);
        outputStream.close();

    }
}

Meine Main

Java:

import java.io.File;
import java.io.IOException;
import java.util.List;

public class Main {

    public static void main(String args[]) {
        File csvFile = new File("daten.csv");
        CSVParser parser = new CSVParser();
        try {
            List<CSVRow> rows = parser.parseFile(csvFile);
            rows.forEach(row -> {
                try {
                    new FileWriter().writeFile(row.getFilename(), row.getFiledata());
                } catch (IOException e) {
                    e.printStackTrace();
                }
            });
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

Da ich das Projekt nur für einen Einmaligen Datenimport benötige war ich mit der Lesbarkeit ein wenig schluderig *schande über mein Haupt*

Danke schonmal im vorraus für eure Hilfe.

kneitzel · 26. Apr 2019

Also ich durchschaue das jetzt noch nicht. Eine CSV Datei kann keine binären Daten einfach so führen. Denn selbstverständlich kann eine binäre Datei auch Newlines und Kommas/Semikolons enthalten! Daher ist eine solche Auswertung schlicht nicht möglich.

Daher wäre meine Vermutung, dass die Binären Daten durchaus irgendwie codiert wurden.

Da würde ich an Deiner Stelle noch einmal nachhaken.

Elenteria · 26. Apr 2019

Genau auf das Problem bin ich auch gestoßen. Deshalb prüfe ich auch ob ich die Sequenz "%PDF-" treffe die Markiert den begin einer PDF Datei. Sobald ich diese Sequenz gefunden haben ignorier ich alle New Lines/Semikolons/Kommas/ etc. Solange bis ich auf die Sequenz "%%EOF" Treff welche das Ende einer PDF Datei markiert.

mihe7 · 27. Apr 2019

Elenteria hat gesagt.:
Das Problem ist das eine Spalte der CSV binärcodierte PDF Dateien enthält.

Wer macht denn sowas?!? Da muss man sich ja schon was brechen, um die Datei richtig zu erzeugen (in Java als OutputStream, dann die Strings einzeln in Bytes konvertieren...)

Elenteria hat gesagt.:
Leider sind die PDF-Dateien die bei mir am Ende Rauskommen nicht Lesbar und ich finde den Fehler nicht.

Hast Du schon einmal die Bytes des PDFs ohne Parser (zu Fuß) herausgelesen und abgespeichert? Funktioniert die PDF dann?

Elenteria · 27. Apr 2019

Wer macht denn sowas?!? Da muss man sich ja schon was brechen, um die Datei richtig zu erzeugen

Als ich das gesehen hab war mein erster Gedanke auch "Was stimmt denn nicht mit euch"

Wie meinst du das mit PDF zu Fuß auslesen? CSV als byte[] einlesen und druchlaufen -> wenn das Start-Tag kommt in einer Datei schreiben -> Wenn das End-Tag kommt aufhören in eine Datei zu schreiben.

Oder meinst du was anderes?

mihe7 · 27. Apr 2019

Elenteria hat gesagt.:
Wie meinst du das mit PDF zu Fuß auslesen?

Damit meinte ich, mit Hex-Editor o. ä. z. B. Anfang und Ende der PDF manuell herauslesen und dann diesen Ausschnitt in eine .pdf-Datei speichern. Die Frage wäre, ob die Datei dann funktioniert. Wenn nicht -> Problem.

Elenteria · 29. Apr 2019

Ich habs jetzt mal mit einem Hex-Editor versucht. Danke für für den Tipp, auf den Simplen Test bin ich echt nicht gekommen *facepalm*. Die Dateien lassen sich aber auch leider mit der Methode nicht öffnen. Da die Dateien offensichtlich beschädigt sind werd ich jetzt nochmal nachhaken ob ich die Dateien nicht auch anders bekommen kann.
Danke für die Hilfe

mihe7 · 29. Apr 2019

Es könnte natürlich sein (bzw. davon ist auszugehen), dass die Binärdaten kodiert (z. B. UTF-8) geschrieben wurden... Würg.

	Titel	Forum	Antworten	Datum
O	Mit jsoup Text aus HTML-Datei rausgrabben	Allgemeine Java-Themen	29	2. Jul 2024
C	EML Email Text in String wandeln	Allgemeine Java-Themen	11	25. Apr 2024
O	Text aus einer Textdatei rausholen, der zwischen zwei Schlüsselworten steht	Allgemeine Java-Themen	4	25. Sep 2023
K	Bildschirm auslesen/ Text erkennen	Allgemeine Java-Themen	5	9. Mrz 2023
	Text über einen Shape anzeigen (Scenebuilder)	Allgemeine Java-Themen	1	28. Feb 2023
M	Thymeleaf th value und th text	Allgemeine Java-Themen	1	24. Feb 2023
G	Eingegebenen Text Zeile für Zeile ausgeben lassen	Allgemeine Java-Themen	11	1. Okt 2022
G	Eingegebenen Text wiederholt schreiben lassen	Allgemeine Java-Themen	9	23. Sep 2022
G	Darstellung von Text auf MapContext von GeoTools	Allgemeine Java-Themen	2	16. Aug 2022
	Programm stürzt beim Aufruf der Funktion ab? Text ausgeben	Allgemeine Java-Themen	45	5. Jun 2022
	JLabel nur meinen Text verschieben ohne Image	Allgemeine Java-Themen	3	19. Nov 2021
	Bestimmter Text aus PDF extrahieren	Allgemeine Java-Themen	3	17. Nov 2021
B	Scanner erkennt keinen Text in Textdatei, obwohl welcher drinsteht	Allgemeine Java-Themen	10	11. Apr 2021
K	HTMLEditor HTML Text in Rich Text umwandeln	Allgemeine Java-Themen	14	5. Apr 2021
	JDialog zeigt Text nicht an	Allgemeine Java-Themen	5	27. Sep 2020
L	Text filtern	Allgemeine Java-Themen	1	20. Mai 2020
	TEXT Kodierung	Allgemeine Java-Themen	3	20. Apr 2020
J	Die Letzte Zahl aus einer Text datei lesen	Allgemeine Java-Themen	8	23. Feb 2020
S	Ini Text aus String parsen	Allgemeine Java-Themen	1	13. Feb 2020
M	itext - Button der Text in Zwischenablage stellt	Allgemeine Java-Themen	0	7. Jan 2020
	Datentypen Date-Array sortieren - Text mitnehmen?	Allgemeine Java-Themen	7	3. Okt 2018
I	Text suchen und ersetzen im Word Dokument	Allgemeine Java-Themen	3	18. Sep 2018
	Text mining / deep learning	Allgemeine Java-Themen	0	3. Jul 2018
I	Text aus Input-Box entnehmen und zuweisen	Allgemeine Java-Themen	1	29. Jun 2018
	Text Mining	Allgemeine Java-Themen	3	15. Mai 2018
L	Input/Output Wie kann man in der Konsole einen Text farbig ausgeben z.b in grün	Allgemeine Java-Themen	6	22. Sep 2017
B	Arrays mit Text und Zahlen füllen	Allgemeine Java-Themen	3	20. Jun 2017
A	Datenexport (Text und Draw)	Allgemeine Java-Themen	1	23. Feb 2017
L	Text von txt auf JTextArea	Allgemeine Java-Themen	4	2. Feb 2017
N	Das Ende von bestimmten zeilen in text datei ändern und speichern	Allgemeine Java-Themen	3	23. Jan 2017
A	2D-Grafik Text in ein Bild schreiben	Allgemeine Java-Themen	11	31. Aug 2016
T	Textarea text wird immer überschrieben	Allgemeine Java-Themen	4	19. Jul 2016
I	Apache POI Word Text einfügen	Allgemeine Java-Themen	26	30. Jun 2016
T	itext: text in ein textfeld hinzufügen	Allgemeine Java-Themen	2	19. Feb 2016
B	Farbiger Text in der Konsole	Allgemeine Java-Themen	1	16. Jan 2016
K	Pdf mit dynamischem Text mit iText	Allgemeine Java-Themen	0	9. Dez 2015
D	Text Analyzer	Allgemeine Java-Themen	2	7. Dez 2015
	Audiodatein(.ogg/.wav) in Text konvertieren	Allgemeine Java-Themen	0	7. Aug 2015
L	Nach Button drücken den Text festspeichern	Allgemeine Java-Themen	9	13. Jul 2015
X	Löschen von einer Zeile in einer Text Datei. Klappt nicht.	Allgemeine Java-Themen	4	4. Jun 2015
J	Text lesen und in Variablen speichern	Allgemeine Java-Themen	3	27. Mai 2015
S	Text in mehreren Sprachen korrekt darstellen? Wie waehle ich die Fonts aus..?	Allgemeine Java-Themen	0	7. Apr 2015
J	Java - Zeile aus Text datei löschen	Allgemeine Java-Themen	13	13. Jan 2015
M	Text in erstelltes Excelfile schreiben	Allgemeine Java-Themen	6	18. Nov 2014
N	Input/Output Website Text auslesen und bestimmte Zeilen wiedergeben	Allgemeine Java-Themen	4	16. Nov 2014
W	Arraylist Text Suchen und Datei löschen	Allgemeine Java-Themen	5	11. Nov 2014
P	HTML Text bearbeiten	Allgemeine Java-Themen	1	28. Okt 2014
B	JFrame Text Ausgabe	Allgemeine Java-Themen	7	28. Jul 2014
G	Makierter Text in Arbeitsspeicher	Allgemeine Java-Themen	2	3. Feb 2014
B	Text in die Mitte der Konsole schreiben.	Allgemeine Java-Themen	1	2. Feb 2014
M	Variablen Variablen in Text einbinden	Allgemeine Java-Themen	5	28. Jan 2014
P	iText Text zentrieren	Allgemeine Java-Themen	3	8. Feb 2013
J	Verschlüsselung von Text?	Allgemeine Java-Themen	2	3. Feb 2013
M	Text datei in java jar datei einbinden	Allgemeine Java-Themen	4	24. Jan 2013
S	Swing Text in eine JTextArea schreiben	Allgemeine Java-Themen	17	22. Nov 2012
M	Verschlüsselung von Text und Files durch RSA (Encoding Problem)	Allgemeine Java-Themen	7	7. Sep 2012
S	Robuste Methode um Text von HTML code zu extrahieren..?	Allgemeine Java-Themen	6	27. Jul 2012
	Rich Text Editor	Allgemeine Java-Themen	2	16. Jul 2012
M	CMD-Text anzeigen	Allgemeine Java-Themen	10	14. Jul 2012
G	Text Mining	Allgemeine Java-Themen	7	21. Jun 2012
B	Text auf Standarddrucker drucken	Allgemeine Java-Themen	3	19. Jun 2012
S	Library fuer Internet-Text-Daten-Quellen..?	Allgemeine Java-Themen	8	6. Jun 2012
	Find and replace Text docx	Allgemeine Java-Themen	6	30. Mrz 2012
M	Ein bestimmtes Wort in einem Text zählen (String in String)	Allgemeine Java-Themen	9	21. Feb 2012
S	Text in for Schleife in Label einfügen	Allgemeine Java-Themen	4	10. Feb 2012
M	Funktion gesucht: Text vektorisieren	Allgemeine Java-Themen	20	19. Okt 2011
D	Wort in Text mit >100.000 Wörter finden	Allgemeine Java-Themen	7	6. Okt 2011
B	Text wird nicht richtig angezeigt	Allgemeine Java-Themen	9	14. Sep 2011
Q	Text Datei einlesen	Allgemeine Java-Themen	27	18. Aug 2011
N	.doc text ändern	Allgemeine Java-Themen	12	17. Aug 2011
R	Komponente hat nicht die gesetzten Eingeschaften (Text, Farbe)	Allgemeine Java-Themen	3	15. Jun 2011
M	NOA an den Source Text des Dokumentes kommen	Allgemeine Java-Themen	7	15. Mai 2011
A	Text via RegEx durchsuchen und teile ersetzten	Allgemeine Java-Themen	5	19. Apr 2011
O	Text mit Wildcard gegen regulären Ausdruck prüfen	Allgemeine Java-Themen	3	11. Apr 2011
A	Umwandlung von Text/Zeichen in Polynome	Allgemeine Java-Themen	8	23. Feb 2011
Y	Eclipse ppt Folie erzeugen + text plazieren	Allgemeine Java-Themen	4	11. Feb 2011
	Eingegebenen Text in der Konsole nicht sichtbar machen oder nur in Sternchen anzeigen	Allgemeine Java-Themen	2	30. Jan 2011
D	markierten Text kopieren	Allgemeine Java-Themen	2	28. Jan 2011
P	Doppeltverkettete Listen + Text	Allgemeine Java-Themen	5	2. Jan 2011
	embedded Object Database in Text Format	Allgemeine Java-Themen	5	22. Dez 2010
C	Datei als ASCII text einlesen ?	Allgemeine Java-Themen	16	11. Dez 2010
R	Texterkennung - Text aus einem/r Bild/Grafik auslesen	Allgemeine Java-Themen	2	7. Nov 2010
M	String in Html Text umwandeln	Allgemeine Java-Themen	2	25. Sep 2010
T	eingefügter Text nach dem rendern spiegelverkehrt	Allgemeine Java-Themen	2	23. Aug 2010
	encoding einer text-datei	Allgemeine Java-Themen	2	12. Aug 2010
E	Text ans Ende einer Textdatei anfügen	Allgemeine Java-Themen	2	17. Jul 2010
E	JTextArea / JEditorPane + Text formatieren	Allgemeine Java-Themen	3	14. Mai 2010
R	Java Text anderer Schriftart einlesen	Allgemeine Java-Themen	2	19. Mrz 2010
A	AES Key aus Text erzeugen	Allgemeine Java-Themen	2	14. Jan 2010
S	Koordinaten aus einem Text filtern	Allgemeine Java-Themen	11	9. Jan 2010
	Text aus Web-Seiten auslesen	Allgemeine Java-Themen	1	17. Dez 2009
	Graphics2D Text	Allgemeine Java-Themen	2	2. Nov 2009
U	Text verschmelzen	Allgemeine Java-Themen	8	27. Okt 2009
	Java-Code aus Text-Datei parsen	Allgemeine Java-Themen	3	25. Aug 2009
W	Text curser auswählen für Paste	Allgemeine Java-Themen	15	29. Jul 2009
G	HTML-Datei einlesen, Plain Text in Textfile speichern	Allgemeine Java-Themen	4	30. Jun 2009
S	Bestes Text file encoding..?	Allgemeine Java-Themen	36	9. Jun 2009
B	UTF-8 Text	Allgemeine Java-Themen	3	2. Mrz 2009
H	Passwortgschützter Text	Allgemeine Java-Themen	13	20. Jan 2009
C	IReport Feldberechnen und als Text ausgeben	Allgemeine Java-Themen	4	19. Dez 2008

CSV mit Text und Binärdaten auslesen

Elenteria

Bekanntes Mitglied

kneitzel

Gast

Elenteria

Bekanntes Mitglied

mihe7

Top Contributor

Elenteria

Bekanntes Mitglied

mihe7

Top Contributor

Elenteria

Bekanntes Mitglied

mihe7

Top Contributor

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen