Hallo,
auf einem Prüfstand entstehen sehr große CSV Dateien mit mehreren hundert Spalten und noch mehr Zeilen. Die Dateigröße schwankt zwischen 300 GB und 2 TB.
Die beinhalteten Dateien verarbeite ich weiter. z.B. statistische Auswertung, "Ausgleichsgeraden" bzw. mehrdimensionale Flächen.
Leider ist meine Erfahrung in Java mit derart große Dateien begrenzt. Daher suche ich zur Zeit eine Möglichkeit, die Daten möglichst "schnell" einzulesen. Mein ersten Gedanken waren
1.) Ich erstelle ein Register, in dem ich mir die Positionen (Offsets) für die Zeilen und Spalten merke. Danach greife ich einfach an der i-ten Zeile und j-ten Spalte den Wert ab.
2.) Ich schreibe alle Daten in eine DB z.B. H2 und arbeite mit dieser weiter.
In wie weit liege ich damit richtig?
Zu 2.)
Wie arbeite ich mit einer DB bei der mathematischen Auswertung zusammen?
z.B. bei der Erstellung einer 2D Fläche (Anpassung mit Ansatzfunktion)
Gruß, Thomas
auf einem Prüfstand entstehen sehr große CSV Dateien mit mehreren hundert Spalten und noch mehr Zeilen. Die Dateigröße schwankt zwischen 300 GB und 2 TB.
Die beinhalteten Dateien verarbeite ich weiter. z.B. statistische Auswertung, "Ausgleichsgeraden" bzw. mehrdimensionale Flächen.
Leider ist meine Erfahrung in Java mit derart große Dateien begrenzt. Daher suche ich zur Zeit eine Möglichkeit, die Daten möglichst "schnell" einzulesen. Mein ersten Gedanken waren
1.) Ich erstelle ein Register, in dem ich mir die Positionen (Offsets) für die Zeilen und Spalten merke. Danach greife ich einfach an der i-ten Zeile und j-ten Spalte den Wert ab.
2.) Ich schreibe alle Daten in eine DB z.B. H2 und arbeite mit dieser weiter.
In wie weit liege ich damit richtig?
Zu 2.)
Wie arbeite ich mit einer DB bei der mathematischen Auswertung zusammen?
z.B. bei der Erstellung einer 2D Fläche (Anpassung mit Ansatzfunktion)
Gruß, Thomas