Analyse und Kategorisierung großer Datensätze

Pocoporco

Neues Mitglied
Hallo zusammen,

ich suche im Rahmen meiner Bacheloarbeit nach einer Möglichkeit verschiedene Datensätze zu analysieren und zu kategorisieren. Konkret:

Ich habe zahlreiche ArrayLists, gefüllt mit Messwerten. Die Reihenfolge der Einträge ist wichtig, da zunächst die Differenz zwischen zwei Einträgen berechnet werden soll. Hier mal exemplarisch der Inhalt einer Liste.

0, 23, 15666, 20, 67, 20, 15580, 29, 36, 21, 15614, 21, 14016, 20, 23, 43, 15615, 19, 47, 39, 15582, 30, 56, 21, 15581, 20, 66, 23, 15594, 17, 4917, 15611, 21, 43, 15645, 20, 23, 64, 15601, 21, 43, 24, 19, 44, 15601, 20, 23, 21, 22, 21, 15591 (die Liste ist jedoch bedeutend größer)

Wie ihr sehen könnt, gibt es intervallähnliche Muster. Es gibt immer ein paar kleine Werte, gefolgt von einem großen Wert. Bei anderen Listen ist dies ähnlich, aber die Werte müssen nicht im gleichen Wertebereich liegen.

Meine Frage an euch ist nun:
1. Habt ihr eine Idee, wie man eine einzelne Liste auf Gemeinsamkeiten untersuchen kann? Naiver Ansatz war bisher eine Durchschnittsberechnung für alle kleinen und großen Werte. Aber es ist wichtig, dass ich quasi ein Intervallschema pro Liste erhalte, denn

2. Ich möchte die Listen untereinander anschließend auf das Intervallschema vergleichen, um dort eventuelle Gemeinsamkeiten feststellen zu können, sodass ich mit einer prozentuellen Wahrscheinlichkeit sagen kann, dass die beiden Listen von dem selben Messobjekt stammen.


Wahrscheinlich liegt das Problem selbst nicht an der Implementierbarkeit sondern an meinen fehlenden Mathematikkenntnissen, aber vielleicht sind ja ein paar schlaue Köpfe unter euch, die mir eventuell helfen können ;)


Vielen Dank schon mal im Voraus!
Pocoporco
 
S

SlaterB

Gast
ein paar Punkte hast du ja schon aufgezählt, die sowohl mathematisch als auch programmatisch klar sein dürften,
eine Dimension fehlt noch: die Erfahrung mit/ die Interpretation der Ergebnisse selber,

mathematisch und programmatisch läßt sich feststellen, dass in der ersten genannten Liste fast immer 3 kleine Werte zwischen den großen liegen,
in der zweiten Liste ist das (bei aber auch nur weniger Intervallen) nur einmal vorhanden,

das kann mathematisch ein himmelweiter Unterschied sein, vielleicht bedeutet es aber auch gar nix,
es muss festgelegt sein, was wichtig ist, sind kleine Zahlen/ Durchschnitte 34 zu 35, 30 zu 40 oder 30 zu 300 jeweils quasi gleich oder schon unterschiedlich?

hilfreich wären Beispiele, tatsächlich zwei Messreihen von einer Quelle,
bzw. eine von denen man wohl auch die erste Hälfte mit der zweiten vergleichen können müsst?
und dazu die Daten einer echt unterschiedlichen Quelle

graphische Darstellung kann dir helfen, unterschiedliche Intervalllängen usw. festzustellen, auch wenn das relativ trivial ist

auch etwas Hintergrundinfo, was die Zahlen bedeuten, könnte helfen:
kann eine 40 zwischen zwei großen Zahlen ähnliches aussagen wie 2x 20, weil zufällig die Messzeitpunkte entsprechend fielen,
oder ist das was völlig anderes?
 
N

nillehammer

Gast
Das sieht für mich nach einer Aufgabe aus dem Themenkreis Statistik/Stochastik aus. Dort gibt es verschiedene Verfahren, die Streuung und/oder Abweichung von Werten einer Messreihe zu bestimmen:
Streuung (Statistik) ? Wikipedia)
Messabweichung ? Wikipedia

Mehr kann ich dazu leider nicht beitragen, weil die entspr. Vorlesungen bei mir schon sehr lange her sind und ich nach der Klausur alles aus meinem Kopf gelöscht habe. Da Du selbst an einer Bachelorarbeit schreibst, nehme ich mal an, dass bei DIR die entspr. Vorlesungen noch nicht so lange her sein dürften :D.
 
Zuletzt bearbeitet von einem Moderator:

Pocoporco

Neues Mitglied
Vielen Dank für die schnelle Antwort,


es geht um das Sendeverhalten von Probe Requests (also Datenpackete, die als Broadcast von WLAN-Adaptern versendet werden) bei unterschiedlichen Geräten und Einstellungen. Ich versuche festzustellen, ob man unterschiedliche Geräte anhand der gesammelten Frames identifizieren kann.

In jedem Probe Request ist dabei das genaue Sendedatum enthalten. Die Werte, die ich analysiere sind jeweils der Zeitabstand zwischen den einzelnen empfangenen Frames. Je nach Hersteller und Gerät sind die Abstände daher verschieden. (@SlaterB: eine 40 sagt daher nicht das gleiche aus, wie 2x20.)


Als Beispiel noch ein paar verschiedene Messreihen:01, 02, 03.
Und eine schnelle graphische Veranschaulichung von der Messung 01 (Y-Achse = Zeitdifferenz in ms, X-Achse = Packetanzahl)

Graphisch sieht das Ganze ziemlich brauchbar aus. Ich könnte es ja auf Folien ausdrucken und übereinander legen :D Aber eine mathematische Lösung wäre sicherlich wissenschaftlicher ;)

@nillehammer: Leider fehlt mir dazu auch das nötige Wissen. Wir hatten zwar einige Mathevorlesungen, aber ich wüsste jetzt keinen konkreten Einstieg dazu.

Vieleicht fällt jemandem ja noch etwas ein!
Auf jeden Fall Danke schonmal für eure Ratschläge!
 
Zuletzt bearbeitet:

Ähnliche Java Themen

Neue Themen


Oben