Ich habe zu meinem aktuellen Projekt in den letzten Tagen zwar schon häufiger Fragen gestellt, aber ich habe eben festgestellt, dass ich meine bisherige Strategie wohl über den Haufen werfen muss...
Darum nochmal ein paar/viele grundlegende Fragen die ich so ähnlich schonmal gestellt habe:
Ich muss eine größere Menge (zwischen 20 MB und 200 MB) an Daten aus einer Datei auslesen. Prinzipiell handelt es sich hier hauptsächlich um 16bit signed Integerwerte allerdings habe ich auch noch andere Dateien aus denen ich Daten auslesen muss welche double, String, char, boolean, etc. sein können (signed und unsigned). Das ganze liegt in Byteform entweder in BigEndian oder in LittleEndian vor (welcher Fall vorliegt kann erst festgestellt werden wenn die Datei geöffnet wurde) und ich weis bei welchem Offset welcher Wert stehen müsste.
Ich habe schon mit DataInputStream rumprobiert, musste mir dort allerdings selbst Methoden schreiben um mit LittleEndian klar zu kommen oder unsigned datentypen richtig auszulesen. Außerdem habe ich mir immer eine byte[] mit benötigter größe erstellt um mittels DataInputStream.read(byte[]) und String(byte[]) beispielsweise einen String auslesen zu können - falls es eine Klasse von Java gibt bei der ich offset, Länge und datentyp angeben könnte wäre das klasse.
Mein zweiter Ansatz war einen FileInputStream in einen BufferedInputStream zu stecken (das hab ich aber nur irgendwo aufgeschnappt und selbst nicht so 100% verstanden) um die ganze Datei dann in ein byte[] zu speichern und dann mit dieser byte[] weiter zu arbeiten. Da ich allerdings ziemlich große Dateien habe und zum Großteil auch noch rekursiv bei der auswertung vorgehe (ich übergebe große teilstücke dieser byte[] beim nächsten aufruf der methode) bekomme ich ziemlich schnell ein Speicherproblem und das Programm stürzt ab. Schnell ist im Übrigen auch nicht das richtige Wort, da es doch 5 bis 10 Minuten dauert bis ich die OutOfMemoryException (oder so ähnlich) bekomme. Ich denke mal das meine Idee das ganze in eine byte[] zu kopieren und auch noch mehrfach zu kopieren schuld sein könnte. Kann ich nicht irgendwie einfach angeben ab welchem Offset in der Datei ein gewisse Anzahl von Bytes ausgelesen werden soll? Naja, ist ja auf die selbe Frage wie vorher rausgelaufen.
Mein zweiter Punkt ist eher eine Designfrage für meine Daten. Viele meiner Daten lassen sich gut in einer Baumstruktur darstellen, allerdings enthalten nur die Knoten der selben Tiefe die gleichen Daten. Geht man Tiefer in den Baum müssen also andere Parameter ausgelesen werden. Außerdem möchte ich das ganze gerne variabel halten, da meine Daten die ich auslesen will in verschiedenen Versionen existieren (die Aufzeichen-Software hat sich in den letzten 10 Jahre weiter entwickelt). Bisher habe ich das so gelöst, dass ich aus einer Textdatei eine Art Schablone für jeden Knoten auslese und dann nach dieser Schablone meine Werte in eine ArrayList<String[]> schreibe. Die Schablone ist eignetlich nur eine Auflistung meiner Parameter, der jeweilge Datentyp und die Anzahl der zu lesenden Bytes in meiner eigntlichen auszuwertenden Datei. In den String[] meiner ArrayList steht dann immer der Name des Parameters, der ausgelsene Wert dieses Parameters aus meiner Datei und der Datentyp des Parameters (da ich den String später ja konvertieren muss). Das Zugreifen auf einen bestimmten Parameter eines Knoten ist auf diese Weise allerdings etwas nervig, da das bei einer Baumtiefe von vier z.B. so aussieht:
Wurzel.get(nummerEinesKindes).get(nummerEinesKindesKindes).get(nummerEinesKindesKindesKindes).listeDerParamter
Dann muss ich diese Liste nach dem richtigen Parameter durchsuchen, den Datentyp auslesen und den Wert von einem String in den entsprechenden Datentypen umwandeln. Das suchen und umwandeln kann ich auch nicht durch eine Methode der Klasse erledigen lassen, da ich ja verschieden Datentypen bei der Rückgabe haben kann.
Es wäre ja schon gut wenn ich irgendwie komfortabler einen beliebigen Knoten in meinem Baum aufrufen könnte aber mir fehlt irgendwie die zündende Idee Ich habe hier mal was von IDs gelesen allerding habe ich nicht so die Vorstellung davon wie ich das machen soll, da bei mir der Vaterknoten nur über seine Kinder bescheid weis aber nicht über seine Enkel. Die ID eines Enkels wäre daher für den Vater nicht aussagekräftig.
Um es ein bisschen anschaulicher zu machen versuche ich hier mal noch ein Beispiel zu basteln:
Root
|__ Versionsnummer (Parameter / int)
|__ Anzahl Kinder (Parameter / int)
|__ Name des Knoten (Parameter / String)
|__ ArrayList von Kindern________________________________________ ...
-----|__ Name (Parameter / String) -------|__ Name (Parameter / String)
-----|__ Nummer (Parameter / int) --------|__ Nummer (Parameter / int)
-----|__ Strom (Parameter / double) ------|__ Strom (Parameter / double)
-----|__ Spannung (Parameter / double) --|__ Spannung (Parameter / double)
-----... ----------------------------------...
-----|__ ArrayList von Kindern ------------|__ ArryList von Kindern
----------|_______________________... -------|_______ ...
----------|__ -------|__ -------|__
----------|__ -------|__ -------|__
so sieht die Struktur etwa aus. Die Parameter können bei einer anderen Ausgangsdatei im selben Knoten allerdings wieder anders aussehen (nur Knoten der selben Tiefe aus ein und der selben Datei sehen in jedem Fall identisch aus abgesehen von der Anzahl der Kinder). Aus diesem Grund stehen alle als "Parameter" gekennzeichneten Werte zur Zeit auch in einer zweiten ArrayList vom Typ String[] (wie oben im Text beschrieben).
Entschuldigung das ich meine Probleme nicht besser beschreiben kann und ich hoffe, dass diejenigen unter euch, die es bis hier her geschafft haben vieleicht die ein oder andere Anregung für mich haben.
Danke schonmal...
Darum nochmal ein paar/viele grundlegende Fragen die ich so ähnlich schonmal gestellt habe:
Ich muss eine größere Menge (zwischen 20 MB und 200 MB) an Daten aus einer Datei auslesen. Prinzipiell handelt es sich hier hauptsächlich um 16bit signed Integerwerte allerdings habe ich auch noch andere Dateien aus denen ich Daten auslesen muss welche double, String, char, boolean, etc. sein können (signed und unsigned). Das ganze liegt in Byteform entweder in BigEndian oder in LittleEndian vor (welcher Fall vorliegt kann erst festgestellt werden wenn die Datei geöffnet wurde) und ich weis bei welchem Offset welcher Wert stehen müsste.
Ich habe schon mit DataInputStream rumprobiert, musste mir dort allerdings selbst Methoden schreiben um mit LittleEndian klar zu kommen oder unsigned datentypen richtig auszulesen. Außerdem habe ich mir immer eine byte[] mit benötigter größe erstellt um mittels DataInputStream.read(byte[]) und String(byte[]) beispielsweise einen String auslesen zu können - falls es eine Klasse von Java gibt bei der ich offset, Länge und datentyp angeben könnte wäre das klasse.
Mein zweiter Ansatz war einen FileInputStream in einen BufferedInputStream zu stecken (das hab ich aber nur irgendwo aufgeschnappt und selbst nicht so 100% verstanden) um die ganze Datei dann in ein byte[] zu speichern und dann mit dieser byte[] weiter zu arbeiten. Da ich allerdings ziemlich große Dateien habe und zum Großteil auch noch rekursiv bei der auswertung vorgehe (ich übergebe große teilstücke dieser byte[] beim nächsten aufruf der methode) bekomme ich ziemlich schnell ein Speicherproblem und das Programm stürzt ab. Schnell ist im Übrigen auch nicht das richtige Wort, da es doch 5 bis 10 Minuten dauert bis ich die OutOfMemoryException (oder so ähnlich) bekomme. Ich denke mal das meine Idee das ganze in eine byte[] zu kopieren und auch noch mehrfach zu kopieren schuld sein könnte. Kann ich nicht irgendwie einfach angeben ab welchem Offset in der Datei ein gewisse Anzahl von Bytes ausgelesen werden soll? Naja, ist ja auf die selbe Frage wie vorher rausgelaufen.
Mein zweiter Punkt ist eher eine Designfrage für meine Daten. Viele meiner Daten lassen sich gut in einer Baumstruktur darstellen, allerdings enthalten nur die Knoten der selben Tiefe die gleichen Daten. Geht man Tiefer in den Baum müssen also andere Parameter ausgelesen werden. Außerdem möchte ich das ganze gerne variabel halten, da meine Daten die ich auslesen will in verschiedenen Versionen existieren (die Aufzeichen-Software hat sich in den letzten 10 Jahre weiter entwickelt). Bisher habe ich das so gelöst, dass ich aus einer Textdatei eine Art Schablone für jeden Knoten auslese und dann nach dieser Schablone meine Werte in eine ArrayList<String[]> schreibe. Die Schablone ist eignetlich nur eine Auflistung meiner Parameter, der jeweilge Datentyp und die Anzahl der zu lesenden Bytes in meiner eigntlichen auszuwertenden Datei. In den String[] meiner ArrayList steht dann immer der Name des Parameters, der ausgelsene Wert dieses Parameters aus meiner Datei und der Datentyp des Parameters (da ich den String später ja konvertieren muss). Das Zugreifen auf einen bestimmten Parameter eines Knoten ist auf diese Weise allerdings etwas nervig, da das bei einer Baumtiefe von vier z.B. so aussieht:
Wurzel.get(nummerEinesKindes).get(nummerEinesKindesKindes).get(nummerEinesKindesKindesKindes).listeDerParamter
Dann muss ich diese Liste nach dem richtigen Parameter durchsuchen, den Datentyp auslesen und den Wert von einem String in den entsprechenden Datentypen umwandeln. Das suchen und umwandeln kann ich auch nicht durch eine Methode der Klasse erledigen lassen, da ich ja verschieden Datentypen bei der Rückgabe haben kann.
Es wäre ja schon gut wenn ich irgendwie komfortabler einen beliebigen Knoten in meinem Baum aufrufen könnte aber mir fehlt irgendwie die zündende Idee Ich habe hier mal was von IDs gelesen allerding habe ich nicht so die Vorstellung davon wie ich das machen soll, da bei mir der Vaterknoten nur über seine Kinder bescheid weis aber nicht über seine Enkel. Die ID eines Enkels wäre daher für den Vater nicht aussagekräftig.
Um es ein bisschen anschaulicher zu machen versuche ich hier mal noch ein Beispiel zu basteln:
Root
|__ Versionsnummer (Parameter / int)
|__ Anzahl Kinder (Parameter / int)
|__ Name des Knoten (Parameter / String)
|__ ArrayList von Kindern________________________________________ ...
-----|__ Name (Parameter / String) -------|__ Name (Parameter / String)
-----|__ Nummer (Parameter / int) --------|__ Nummer (Parameter / int)
-----|__ Strom (Parameter / double) ------|__ Strom (Parameter / double)
-----|__ Spannung (Parameter / double) --|__ Spannung (Parameter / double)
-----... ----------------------------------...
-----|__ ArrayList von Kindern ------------|__ ArryList von Kindern
----------|_______________________... -------|_______ ...
----------|__ -------|__ -------|__
----------|__ -------|__ -------|__
so sieht die Struktur etwa aus. Die Parameter können bei einer anderen Ausgangsdatei im selben Knoten allerdings wieder anders aussehen (nur Knoten der selben Tiefe aus ein und der selben Datei sehen in jedem Fall identisch aus abgesehen von der Anzahl der Kinder). Aus diesem Grund stehen alle als "Parameter" gekennzeichneten Werte zur Zeit auch in einer zweiten ArrayList vom Typ String[] (wie oben im Text beschrieben).
Entschuldigung das ich meine Probleme nicht besser beschreiben kann und ich hoffe, dass diejenigen unter euch, die es bis hier her geschafft haben vieleicht die ein oder andere Anregung für mich haben.
Danke schonmal...