Hi,
ich habe mich jetzt seit ein paar Wochen damit beschäftigt wie ich ein bestimmtestes Problem lösen kann und mir Grundkenntnisse der Programmierung angeeignet.
Nach diversem hin und herumprobieren möchte ich das Ganze jetzt strukturiert angehen und vor dem runter-coden (was sicher bei mir sicher sehr lange dauern wird) sicherstellen, dass die Programmstruktur und die Nutzung der Objektorientierung sinnvoll erfolgt und ich mich nicht vermeidbar verrenne.
Ich würde mich deshalb über etwas Input von erfahrenen Entwicklern zu folgendem Vorhaben freuen - da es mir sowohl an Programmierkenntnissen als auch an Erfahrung fehlt
.
Ich möchte in Roh-Daten vordefinierte Muster (vereinfacht: geometrische Figuren) suchen. Dann möchte ich zu den Mustern verschiedene Umgebungsvariablen zum Zeitpunkt des Auftretens des Muster untersuchen, um festzustellen welche Umgebungsvariablen sich bei welchen Mustern dazu eignen ein gutes Prognosemodell erstellen. Das geht ganz gut mit Statistik leider - habe ich nur Rohdaten, die Musterdefinition und diverse Theorien zu den relevanten Umgebungsvariablen die ich erst validieren muss.
D. h. mein zu lösendes Problem ist es aus den Rohdaten zunächst die Muster zu identifizieren und dann ebenfalls aus den Rohdaten und Mustern die Umgebungsvariablen zu erstellen. Erst anschließend kann ich statistische Methoden anwenden – die stat. Methoden sind für meine Anfrage unerheblich.
Der Roh-Datenpool umfasst ca. 20.000 Datenpunkte mit 6 Eigenschaften (Float und date).
Bei den Überlegungen dazu, wie die Muster (Vereinfacht: bspw. Rechteck, Dreiecke, …) zu erkennen sind habe ich mir einen Algorithmus überlegt, der zunächst darin besteht in allen Rohdaten die allgemeingültigen Teile der Muster zu identifizieren (vereinfacht Linien: nach rechts Linie, nach links absteigende Linie, horizontale Linie, …).
Ich möchte die Daten jeweils durch verschiedene Methoden jagen, die dann feststellen ob es Datenpunkte gibt die sich zu einem oder mehreren bestimmten Linientyp zuordnen lassen.
Meine Überlegung ist es nach der Identifikation eines Linientyps eine Klasse zu schreiben, welche die entsprechende Linienobjekte zu den Datenpunkten erzeugt.
Für jede identifizierte Linien soll dann noch ihre Güte in dem erzeugte Linienobjekt gespeichert werden – diese ist erforderlich um später die tolerierbare Ausreißerempfindlichkeit bzw. die tolerierbare dicke für eine Linie für das Prognosemodell bestimmen zu können.
Es wird je Linientyp n Ausprägungen geben.
Dann möchte ich prüfen, ob es Linien gibt die hinsichtlich Ihrer Lage die Bedingungen zur Klassifikation eines Musters (bspw. vereinfacht Rechteck) erfüllen. D. h. ich jage jetzt alle Linienobjekte durch verschiedene Methoden die dazu dienen die verschiedenen Muster zu identifizieren. Für jedes identifizierte Muster würde ich wiederum ein Objekt erzeugen und dazu die Eigenschaften aus den Linienobjekten übernehmen (bspw. Größe des Dreiecks, Anzahl der Ausreißer,….).
Theoretisch kann ein Muster Teil eines anderen Musters sein.
Ich habe mir eine Liste mit allen Datenpermutationen erstellt und bin mir ziemlich sicher, dass der Algorithmus an sich funktionieren sollte, was man schöner machen sollte würde mich natürlich dennoch interessieren.
Kurz-Form angedachter Programmaufbau:
ich habe mich jetzt seit ein paar Wochen damit beschäftigt wie ich ein bestimmtestes Problem lösen kann und mir Grundkenntnisse der Programmierung angeeignet.
Nach diversem hin und herumprobieren möchte ich das Ganze jetzt strukturiert angehen und vor dem runter-coden (was sicher bei mir sicher sehr lange dauern wird) sicherstellen, dass die Programmstruktur und die Nutzung der Objektorientierung sinnvoll erfolgt und ich mich nicht vermeidbar verrenne.
Ich würde mich deshalb über etwas Input von erfahrenen Entwicklern zu folgendem Vorhaben freuen - da es mir sowohl an Programmierkenntnissen als auch an Erfahrung fehlt
Ich möchte in Roh-Daten vordefinierte Muster (vereinfacht: geometrische Figuren) suchen. Dann möchte ich zu den Mustern verschiedene Umgebungsvariablen zum Zeitpunkt des Auftretens des Muster untersuchen, um festzustellen welche Umgebungsvariablen sich bei welchen Mustern dazu eignen ein gutes Prognosemodell erstellen. Das geht ganz gut mit Statistik leider - habe ich nur Rohdaten, die Musterdefinition und diverse Theorien zu den relevanten Umgebungsvariablen die ich erst validieren muss.
D. h. mein zu lösendes Problem ist es aus den Rohdaten zunächst die Muster zu identifizieren und dann ebenfalls aus den Rohdaten und Mustern die Umgebungsvariablen zu erstellen. Erst anschließend kann ich statistische Methoden anwenden – die stat. Methoden sind für meine Anfrage unerheblich.
Der Roh-Datenpool umfasst ca. 20.000 Datenpunkte mit 6 Eigenschaften (Float und date).
Bei den Überlegungen dazu, wie die Muster (Vereinfacht: bspw. Rechteck, Dreiecke, …) zu erkennen sind habe ich mir einen Algorithmus überlegt, der zunächst darin besteht in allen Rohdaten die allgemeingültigen Teile der Muster zu identifizieren (vereinfacht Linien: nach rechts Linie, nach links absteigende Linie, horizontale Linie, …).
Ich möchte die Daten jeweils durch verschiedene Methoden jagen, die dann feststellen ob es Datenpunkte gibt die sich zu einem oder mehreren bestimmten Linientyp zuordnen lassen.
Meine Überlegung ist es nach der Identifikation eines Linientyps eine Klasse zu schreiben, welche die entsprechende Linienobjekte zu den Datenpunkten erzeugt.
Für jede identifizierte Linien soll dann noch ihre Güte in dem erzeugte Linienobjekt gespeichert werden – diese ist erforderlich um später die tolerierbare Ausreißerempfindlichkeit bzw. die tolerierbare dicke für eine Linie für das Prognosemodell bestimmen zu können.
Es wird je Linientyp n Ausprägungen geben.
Dann möchte ich prüfen, ob es Linien gibt die hinsichtlich Ihrer Lage die Bedingungen zur Klassifikation eines Musters (bspw. vereinfacht Rechteck) erfüllen. D. h. ich jage jetzt alle Linienobjekte durch verschiedene Methoden die dazu dienen die verschiedenen Muster zu identifizieren. Für jedes identifizierte Muster würde ich wiederum ein Objekt erzeugen und dazu die Eigenschaften aus den Linienobjekten übernehmen (bspw. Größe des Dreiecks, Anzahl der Ausreißer,….).
Theoretisch kann ein Muster Teil eines anderen Musters sein.
Ich habe mir eine Liste mit allen Datenpermutationen erstellt und bin mir ziemlich sicher, dass der Algorithmus an sich funktionieren sollte, was man schöner machen sollte würde mich natürlich dennoch interessieren.
- Was sollte ich in der Designphase noch berücksichtigten?
Kurz-Form angedachter Programmaufbau:
- Main-Klasse
- importiert Rohdaten ein
- Analysiert Datenpunkte und identifiziert darin vordefinierte Linientypen
- Erzeugt alle identifizierten Linienobjekte
- Analysiert Linienobjekte und identifiziert darin vordefinierte Mustertypen
- Erzeugt alle identifizierten Musterobjekte und verschmilzt die Eigenschaften der zugrunde liegenden Linienobjekte
- Exportiert die Musterobjekte
- Ist die Struktur des Programms unter den beschriebenen Bedingungen und insbesondere die Verwendung der angedachten Objekte sinnvoll?