Wahl der Datenstruktur für die Suche.

145145145 · 26. Okt 2007

Hallo!

Ich habe eine Datei wie:

4 2 5 3 2
1 1 5 1 12
1 1 13 1 19
1 4 1 8 3
....

In jeder Zeile steht eine Kombination aus n Zahlen. Diese Datei muss ich einlesen (was kein Problem ist) und dann durchsuchen können. Dabei soll als Ergebniss die Zahl rauskommen, wo oft die gesuchte Kombination (z.B. 1 4 1 8 3 ) oder eine Schema (z.b. 1 * 1 8 3 oder * * * 5 3, * steht für beliebig) vorhanden ist. Da es sich um die Dateien mit mehr als 50000 Zeilen handelt ist die Wahl der Datenstruktur für die effiziente Suche wichtig.
Kann mir jemand dabei helfen?
Danke!

Igor

tfa · 26. Okt 2007

Am einfachsten wäre es, jede Zeile als String zu speichern und in einer Liste abzulegen.
Zur Suche wird jeder String der Liste dann mit dem Suchkriterium als regulärem Ausdruck verglichen.

Alternativ könnte man auch int-Arrays abspeichern und diese dann mit einer selbstgebastelten Vergleichsfunktion suchen.
Das könnte performanter sein, aber auch aufwendiger zu programmieren.

Guest · 26. Okt 2007

gibts eine Sortierung der Zahlen in deiner Datei? Wenn nicht musst du entscheiden ob du durch eine Sortierung Vorteile hast, wenn du zum Beispiel die Datei einmal am Programmstart einlesen musst und dann im weiterem Verlauf keine Änderungen an den Daten und viele Abfragen stattfinden wirst du mit einer sortierten Datenstruktur wesentlich besser fahren.

Marco13 · 26. Okt 2007

Was einem die Sortierung bei einer Anfrage wie
* * * * 1
bringt, weiß ich jetzt aber nicht... dafür müßte man nach wie vor die gesamten Daten durchsuchen...

nebulo · 26. Okt 2007

Gib mal ein paar mehr Informationen. Wird z.B. auf einem Satz Daten diese Suche öfter ausgeführt?

Marco13 · 26. Okt 2007

Das Problem ist ja das gleiche wie "SELECT FROM WHERE"-Anfragen wie bei Datenbanken - da habe sich viele Leute schon Gedanken drüber gemacht. Aber wenn es wirklich nur um die Anzahl der Zeilen geht (und nicht um die Zeilen selbst), sehe ich im wesentlichen zwei Möglichkeiten: Etweder, bei jeder Anfrage brute-force durch die Zeilen laufen, und die ints nacheinander vergleichen. Oder sich beim Einlesen "irgendeine" "Indizierungs-Struktur" aufzubauen, die dann aber evtl. ziemlich kompliziert und platzhungrig sein könnte....

Guest · 26. Okt 2007

Was einem die Sortierung bei einer Anfrage wie
* * * * 1
bringt, weiß ich jetzt aber nicht... dafür müßte man nach wie vor die gesamten Daten durchsuchen...

indem Fall schon, wenn du allerdings 1 1 * * * als Anfrage hast musst bei Sortierung nur nach 11 als die ersten beiden Stellen suchen, was sehr viel schneller geht als die kompletten 50000 Datensätze zu durchlaufen. Wenn man zum Beispiel ein TreeSet nimmt kann man bei der suche nach 11*** ein einfaches subSet(11000,12000) ausführen und schon hat man seine Ergebnisse in O(log n). Bei einer unsortierten Datenstruktur müsste man den kompletten Datenbestand durchlaufen, d.h. O(n).

Die Frage ob sich der zusätzliche Aufwand für die Sortierung lohnt kann man aber mit den bekannten Infos nicht beantworten

Guest · 26. Okt 2007

Die Daten in der Datei sind nicht sortiert. Die Datei wird während der Abarbeitung nicht verändert. Es geht nur darum zu zählen wie oft eine bestimmte Kombination bzw. Schema da ist.

Die Suche wird sehr oft durchgesucht. mind. (Anzahl der Zeile)*0.1. Deswegen auch die Optimierungsversuche. Die Implementierung mit int-Arrays ist leider zu langsam...

nebulo · 27. Okt 2007

Ich habe jetzt nicht genauer darüber nachgedacht aber wenn du tatsächlich oft in den Daten suchst würde es sich wahrscheinlich lohnen auf irgendeine Art zu sortieren.

Ich habe mal einen Ansatz, sehr viel habe ich nicht darüber nachgedacht und es gibt sicher Bessere:

1. Daten in einen Int-Array einlesen und sortieren
2. Per Interpolationssuche nach dem entsprechenden Element suchen

Bei den * musst du wohl jeweils einmal für alle Sterne eine 0 und einmal für alle Sterne eine 9 eintragen. Dann bekommst du einen Bereich in dem sich das entsprechende Element befinden könnte....

Natürlich ist der Algorithmus im WC (***...*x) sehr schlecht. Aber ich denke das lässt sich kaum umgehen.

Marco13 · 27. Okt 2007

Den Ansatz hatte ich einen Moment lang auch im Kopf: Wenn man eine Anfrage hat wie
1 * * * *
Dann lässt man sozusagen für die Sterne die Zahlen 0 0 0 0 bis 9 9 9 9 durchlaufen, und macht für jede dieser Zahlen eine Anfrage, und bekommt damit das Endergebnis. Dann habe ich aber gemerkt, dass in dem Beispiel auch Zahlen >9 vorkommen, d.h. man kann offenbar NICHT für jeden * nacheinander alle möglichen Zahlen einsetzen. (bzw. es würde zu lange dauern, jede dieser Stellen von -Integer.MAX_VALUE bis Integer.MAX_VALUE laufen zu lassen :lol: )

50000 Zeilen sind nicht sehr viel. Zum Durchsuchen IST es viel, insbesondere wenn die Suchanfragen mit *** gestellt werden, und es VIELE Suchanfragen gibt. Aber in bezug auf den Speicher sind 50000 int-Arrays schon verdammt wenig. D.h. es wäre in diesem Fall wohl vertretbar, eine (in bezug auf den Speicher) "veschwenderische" Index-Datenstruktur aufzubauen, die Suchanfragen dann in O(n) erlaubt (n ist die Anzahl der Zahlen in einer Zeile, und NICHT Anzahl der Zeilen!!!), also (bei konstanter Zeilenlänge) in konstanter Zeit.

Ich hatte schon angefangen, sowas zu versuchen, hatte aber nicht genug Zeit. Falls es nicht klappt, versuch' ich's bei Gelegenheit nochmal. Ich wüßte auch nicht, wie man eine ECHT konstante Anfrage-Zeit hinkriegen könnte, aber mein erster Ansatz war der folgende:
Man liest die Zeilen nacheinander ein
...
4 2 5 3 2
1 1 5 1 12
1 1 13 1 19
1 4 1 8 3

Für jede Zeile speichert man sich ein "Zeile"-Objekt, das die Zahlen enthält. Diese Zeilen legt man in einer Datenstruktur ab, die einem
- zu einer Stelle k innerhalb der Zeile
- für die Zahl x, die an der k-ten stelle steht
- die Menge der Zeilen liefert, die an der Stelle k die Zahl x haben.

Also sinngemäß sowas:

Code:

Map<Integer, Set<Line>> lineMaps[] = new HashMap<Integer, Set<Line>>[n]; // n = Anzahl der Zahlen in einer Zeile
for (i=0..n) lineMaps[i] = new new HashMap<Integer, Set<Line>>();
for (all Lines)
{
    line = readLine();
    for (i=0..n)
    {     
         int x = line.at(i); 
         HashMap<Integer, List<Line>> lineMap = lineMaps[i];
         Set<Line> setOfLinesWithXatI = lineMap.get(x);
         if (setOfLinesWithXatI==null) createItAndPutItIntoLineMap();
         setOfLinesWithXatI.add(line);
    }
}

Wenn man dann eine Anfrage stellt wie
3 8 13 5 21
dann schaut man in dieser liste nach, und erhält die Mengen der Zeilen die
eine 3 an Stelle 0 haben
eine 8 an Stelle 1 haben
..
eine 21 an Stelle 5 haben

Man holt sich also

Code:

Set<Line> set0 = lineMaps[0].get(3);
Set<Line> set1 = lineMaps[1].get(8);
Set<Line> set2 = lineMaps[2].get(13);
Set<Line> set3 = lineMaps[3].get(5);
Set<Line> set4 = lineMaps[4].get(21);

(eigentlich natürlich als Set<Line>[n]-Array...)

Die * Sternchen behandelt man entsprechend über eine Vereinigung der Mengen. Bei einer Anfrage wie
3 8 13 * 21
holt man sich also

Code:

Set<Line> set0 = lineMaps[0].get(3);
Set<Line> set1 = lineMaps[1].get(8);
Set<Line> set2 = lineMaps[2].get(13);

Set<Line> set3 = new HashSet<Line>();
for (Set<Line> subSet : lineMaps[3].values())
{
    set3.addAll(subSet);
}

Set<Line> set4 = lineMaps[4].get(21);

Bis dahin hat man die Information in "konstanter" Zeit erhalten (wobei die Sternchen die Zeit schon "ein bißchen" drücken können auf "linear in bezug auf die Anzahl der Mengen, für die ein Sternchen steht").

Was jetzt definitiv NICHT konstant (und - je nachdem, wie die Liste der Zeilen aussieht - leider u.U. noch recht aufwändig (und im schlechtesten Fall sogar noch aufwändiger als die Brute-Force-Suche) ist) ist, festzustellen, welche Zeilen ALLE diese Bedingungen erfüllen. Das kann man dann über eine Schnittmengenbildung aller sets machen:

Code:

Set<Line> finalSet = set0;
finalSet.retainAll(set1);
finalSet.retainAll(set2);
finalSet.retainAll(set3);
finalSet.retainAll(set4);

Die gesuchte Zahl erhält man am Ende

Code:

int numberOfLinesMatchingTheQuery = finalSet.size();

Ich glaube kaum, dass es eine Möglchkeit gibt, die Schritte (bis auf den letzten) schneller zu machen. Abgesehen vom letzten Schritt sind es eigentlich nur lookups in Arrays oder HashMaps.

Der letzte Schritt ist ... :? .. hmja.... im worst case eben übelst langsam. Wenn man NUR Zeilen der Form
1 2 3 4 5
1 2 3 4 5
1 2 3 4 5
...
hat, und als Anfrage dann
1 2 3 4 5
stellt, holt man sich 5 mal die gleiche Set mit jeweils 50000 Elementen und bildet von denen dann die Schnittmenge (die wieder die gleiche ist), d.h. man hat 250000 Operationen. Diese Operationen wären zwar evtl. immernoch schneller als der echte Vergleich der einzelnen Zeilen-Elemente bei der Brute-Force-Suche, aber trotzdem bestünde da noch Optimierungspotential: FALLS in der Eingabemenge sehr of die gleichen Zeilen vorkommen würde es sich dann lohnen, die Datenstruktur aufzubohren, so dass nicht wirklich die Zeilen gespeichert werden sondern, die Anzahl der Zeilen. D.h. man würde sich in obigem Beispiel nicht 50000 mal die Zeile
1 2 3 4 5
speichern, sondern sich nur EIN mal merken, dass die Zeile "1 2 3 4 5" genau 50000 mal vorgekommen ist. Das wäre dann sowas wie eine

Code:

HashMap<Integer, Map<Line, Integer>> lineMaps[] = ...

Dafür würde man sich wohl eine "komfortablere" Klasse schreiben, und bei der Vereinigung/Schnittmengenbildung müssten entspechend nicht die Sets selbst, sondern die KeySets vereinigt/geschnitten und die hinteren "Integers" (die die für jede Zeile speichern, wie oft sie vorgekommen ist) entsprechend angepasst werden....

Vielleicht hilft's als möglicher Ansatz.

	Titel	Forum	Antworten	Datum
S	Programmierrichtlinie enthält Leitlinien und Regeln für die Wahl von Bezeichnern von Routinen..	Java Basics - Anfänger-Themen	8	7. Dez 2017
H	Java-Editor Wahl	Java Basics - Anfänger-Themen	15	30. Apr 2012
G	Collections Wahl der richtigen Collection	Java Basics - Anfänger-Themen	11	23. Jul 2011
G	Wahl zwischen Typklassen	Java Basics - Anfänger-Themen	3	12. Dez 2008
G	Wahl fuer die Highscoreliste	Java Basics - Anfänger-Themen	9	7. Jan 2007
M	Queue-Datenstruktur: nach dem Elementen entfernen, das Ergebnis ist immer noch nicht optimal.	Java Basics - Anfänger-Themen	3	28. Mai 2023
	Teilsummenproblem / welche Datenstruktur	Java Basics - Anfänger-Themen	2	20. Nov 2020
M	Implementieren einer Datenstruktur, welche nur 5 Objekte speichert	Java Basics - Anfänger-Themen	3	9. Mrz 2020
O	Datenstruktur auf SET prüfen in O(n)	Java Basics - Anfänger-Themen	32	9. Jun 2019
O	Vererbung Ueben mit kleiner Datenstruktur von Räumen	Java Basics - Anfänger-Themen	10	29. Jan 2019
A	Datenstruktur für Savings Algorithmus und Planung von kleinen Programmierprojekten	Java Basics - Anfänger-Themen	1	11. Dez 2018
F	Beste Datenstruktur zum Speichern?	Java Basics - Anfänger-Themen	1	20. Okt 2018
I	Spielbrett programmieren: Datenstruktur	Java Basics - Anfänger-Themen	3	12. Apr 2018
R	Klassen Die lineare Datenstruktur Queue	Java Basics - Anfänger-Themen	3	1. Dez 2016
S	Welche Datenstruktur ist die optimalste um Funktionen fuer bestimmte Wertebereiche abzurufen..?	Java Basics - Anfänger-Themen	5	11. Mrz 2015
C	Methoden Datenstruktur Liste	Java Basics - Anfänger-Themen	3	1. Dez 2014
S	Datentypen nicht lineare STATISCHE Datenstruktur?	Java Basics - Anfänger-Themen	10	15. Jul 2014
S	Zusammenhang Datenstruktur/Algorithmus	Java Basics - Anfänger-Themen	1	25. Jun 2014
M	Datenstruktur gesucht	Java Basics - Anfänger-Themen	3	21. Okt 2013
	Geeignete Datenstruktur	Java Basics - Anfänger-Themen	4	2. Apr 2012
J	Erzeugen einer Datenstruktur	Java Basics - Anfänger-Themen	12	27. Okt 2011
T	Datenstruktur für Sortierung	Java Basics - Anfänger-Themen	4	28. Jul 2011
H	mehrdimensionale Datenstruktur erfassen	Java Basics - Anfänger-Themen	10	30. Dez 2010
	Gson, welche Datenstruktur?	Java Basics - Anfänger-Themen	4	6. Dez 2010
T	Java-Datenstruktur: zuweisen von Strings auf Listen von Strings	Java Basics - Anfänger-Themen	10	1. Okt 2010
N	Vektor mit eigener Datenstruktur sortieren	Java Basics - Anfänger-Themen	20	19. Sep 2010
D	Welche Datenstruktur für welche Problemstellung?	Java Basics - Anfänger-Themen	10	29. Jun 2010
A	begrenzte Datenstruktur zur Speicherung von bytes	Java Basics - Anfänger-Themen	6	4. Mrz 2010
H	Adjazenzliste - Datenstruktur aber wie?	Java Basics - Anfänger-Themen	7	21. Jan 2010
	Datentypen Große, sortierte, schnelle Datenstruktur	Java Basics - Anfänger-Themen	9	30. Dez 2009
B	Finden gemeinsamer Kanten: welche Datenstruktur ?	Java Basics - Anfänger-Themen	9	14. Dez 2009
B	Schlange Datenstruktur	Java Basics - Anfänger-Themen	16	18. Nov 2009
G	Datenstruktur gesucht	Java Basics - Anfänger-Themen	14	15. Okt 2009
A	Schnelle, dynamische, geordnete Datenstruktur?	Java Basics - Anfänger-Themen	11	11. Okt 2009
E	Gibt es eine ähnliche Datenstruktur wie eine Hashmap	Java Basics - Anfänger-Themen	3	13. Jun 2009
K	eigene Hash-Datenstruktur	Java Basics - Anfänger-Themen	2	25. Mrz 2009
D	Was fürne Datenstruktur für Kreuztabelle mit doubles?	Java Basics - Anfänger-Themen	1	16. Mrz 2009
K	Datentyp vs. Datenstruktur - Unterschiede	Java Basics - Anfänger-Themen	13	13. Mrz 2009
D	Was machen wenn Datenstruktur sich ständig ändert?	Java Basics - Anfänger-Themen	10	5. Mrz 2009
0	Dynamische Datenstruktur ohne Duplikate und mit direkter Elementauswahl	Java Basics - Anfänger-Themen	3	21. Feb 2009
G	Welche Datenstruktur ( Sets / Maps)?	Java Basics - Anfänger-Themen	10	5. Feb 2009
I	Datenstruktur eines Terminkalenders	Java Basics - Anfänger-Themen	11	28. Jan 2009
K	suche nicht dynamisch Datenstruktur	Java Basics - Anfänger-Themen	6	27. Jan 2009
M	Suche passende Datenstruktur	Java Basics - Anfänger-Themen	3	5. Jan 2009
P	geeignete Datenstruktur für dreidimensionale Raumbelegung	Java Basics - Anfänger-Themen	5	21. Dez 2008
G	Suche geeignete Datenstruktur	Java Basics - Anfänger-Themen	8	17. Aug 2008
G	Baum Datenstruktur	Java Basics - Anfänger-Themen	2	15. Aug 2008
U	Welche Datenstruktur soll ich nehmen?	Java Basics - Anfänger-Themen	11	29. Jul 2008
G	Welche Datenstruktur ist hier die sinnvolste	Java Basics - Anfänger-Themen	6	10. Jun 2008
G	Datenstruktur und die Kommunikation mit der GUI	Java Basics - Anfänger-Themen	10	20. Mai 2008
X	txt datei in eine datenstruktur einlesen	Java Basics - Anfänger-Themen	3	26. Apr 2008
J	Datenstruktur	Java Basics - Anfänger-Themen	6	5. Apr 2008
G	Datenstruktur [int id, int wert] nach wert sortieren?	Java Basics - Anfänger-Themen	5	10. Feb 2008
S	Welche Datenstruktur für Tabelle/DB?	Java Basics - Anfänger-Themen	5	20. Nov 2007
G	Geeignete Datenstruktur ?	Java Basics - Anfänger-Themen	8	2. Aug 2007
N	passende Datenstruktur	Java Basics - Anfänger-Themen	3	28. Jun 2007
E	welche Datenstruktur (Collection)	Java Basics - Anfänger-Themen	4	24. Jun 2007
6	Welche Datenstruktur?	Java Basics - Anfänger-Themen	3	24. Mai 2007
P	Datenstruktur	Java Basics - Anfänger-Themen	4	9. Feb 2007
J	Kann man Daten innerhalb einer Datenstruktur verändern?	Java Basics - Anfänger-Themen	4	27. Jan 2007
K	datenstruktur	Java Basics - Anfänger-Themen	5	27. Dez 2006
G	Datenstruktur abbilden	Java Basics - Anfänger-Themen	3	19. Dez 2006
F	Welche Datenstruktur für Matrix mit Vektoren?	Java Basics - Anfänger-Themen	2	15. Dez 2006
F	Gibt es eine Datenstruktur für Koordinaten x, y?	Java Basics - Anfänger-Themen	8	14. Dez 2006
E	Welche Datenstruktur für Spielbäume?	Java Basics - Anfänger-Themen	13	7. Nov 2006
P	Datenstruktur gesucht: Array mit Dictionary	Java Basics - Anfänger-Themen	2	27. Apr 2006
H	Datenstruktur für folgende Daten	Java Basics - Anfänger-Themen	8	28. Feb 2006
G	Komplexe Datenstruktur (Liste heterogener Datensätze) ?	Java Basics - Anfänger-Themen	2	17. Dez 2005
P	Welche Datenstruktur um schnell zu suchen?	Java Basics - Anfänger-Themen	25	25. Sep 2005
S	Datenstruktur für Fahrplan einer Buslinie	Java Basics - Anfänger-Themen	7	26. Jul 2005
S	Heterogene Datenstruktur Problem mit Set	Java Basics - Anfänger-Themen	12	25. Jun 2005
G	Datenbank VS simpler Datenstruktur	Java Basics - Anfänger-Themen	3	5. Mai 2005
K	Welche Datenstruktur für eine Bibliotheksanwendung?	Java Basics - Anfänger-Themen	5	3. Mai 2005
G	datenstruktur für jTable?	Java Basics - Anfänger-Themen	4	14. Mrz 2005
M	Code aus IntelliJ in "Textform" für Word-Paper?	Java Basics - Anfänger-Themen	10	Freitag um 16:57
G	Icon für App	Java Basics - Anfänger-Themen	1	4. Apr 2024
	Vererbung Hilfe beim lernen von Objektorientierung für eine Klausur	Java Basics - Anfänger-Themen	10	4. Mrz 2024
	Java 391 für Windows	Java Basics - Anfänger-Themen	37	30. Okt 2023
P	Wieso kann ich als Index für einen Array einen Char angeben?	Java Basics - Anfänger-Themen	3	9. Jul 2023
	Java Programm erstellen für ein Fußball-Turnier	Java Basics - Anfänger-Themen	3	25. Mrz 2023
V	Durchschnittliche Volatility in Prozent für 4 Stunden berechnen	Java Basics - Anfänger-Themen	14	23. Mrz 2023
P	Welches SDK für das erstellen einer ausführbaren Datei?	Java Basics - Anfänger-Themen	4	9. Mrz 2023
C	negamax-Algorithmus für Tic-Tac-Toe spielt manchmal falsch	Java Basics - Anfänger-Themen	10	12. Jan 2023
D	Apache HTTPClient für alle Fälle	Java Basics - Anfänger-Themen	41	11. Jan 2023
J	Layout Manager, welcher ist der Richtige für mein Program?	Java Basics - Anfänger-Themen	1	7. Jan 2023
J	Fehlermeldung unverständlich für Jakarta	Java Basics - Anfänger-Themen	17	4. Jan 2023
M	Minimax-Algorithmus für Vier gewinnt	Java Basics - Anfänger-Themen	11	21. Dez 2022
M	GUI für Vier-Gewinnt.	Java Basics - Anfänger-Themen	4	19. Dez 2022
I	JPA Query für mehrere Klassen	Java Basics - Anfänger-Themen	3	14. Dez 2022
D	Quellcode für cmd funktioniert nicht	Java Basics - Anfänger-Themen	9	9. Dez 2022
R	Operatoren Rechenoperation in Java verwenden für Calculator	Java Basics - Anfänger-Themen	2	6. Dez 2022
R	Operatoren Rechenoperation verwenden für Taschenrechner.	Java Basics - Anfänger-Themen	32	6. Dez 2022
	Counter für Booleanwerte	Java Basics - Anfänger-Themen	8	2. Dez 2022
B	Regex Ausdrücke für Monate	Java Basics - Anfänger-Themen	7	25. Nov 2022
I	BlueJ Queue Frage für Klausur	Java Basics - Anfänger-Themen	2	9. Nov 2022
K	loop pausieren für eine bestimmte Anzahl?	Java Basics - Anfänger-Themen	1	29. Okt 2022
	Randomisier für Buttons	Java Basics - Anfänger-Themen	13	28. Okt 2022
W	Intuitive interface für Komponenten	Java Basics - Anfänger-Themen	4	8. Okt 2022
M	"Class<T> clazz" im Constructor - auch für int möglich?	Java Basics - Anfänger-Themen	7	24. Sep 2022
B	Schrankensystem mit Farberkennung für Flashgame funktioniert nicht wie geplant	Java Basics - Anfänger-Themen	4	11. Sep 2022

Wahl der Datenstruktur für die Suche.

145145145

Gast

tfa

Top Contributor

Guest

Gast

Marco13

Top Contributor

nebulo

Bekanntes Mitglied

Marco13

Top Contributor

Guest

Gast

Guest

Gast

nebulo

Bekanntes Mitglied

Marco13

Top Contributor

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen