Duplikate finden

MrVertigo · 8. Jan 2009

Hallo,

ich habe eine Liste von Daten (die in einer Datei steht oder aus der DB kommt), wobei jeder Datensatz eine ID hat, die nicht immer eindeutig ist.
Nun soll ich die List von Daten durch gehen und die Duplikate (IDs) raus filtern.

Mein erste Ansatz war eine HashMap anzulegne in der ich die ID speichere.
Ich nehme mir also ein Element von der List, ueberpruefe ob die dazugehoerige ID schon in der HashMap ist. Ist sie noch nicht in der HashMap dann packe ich sie mit in die HashMap und den dazugehoerigen Datensatz wird in die Ausgangsdatei geschrieben. Wenn die ID schon in der HashMap ist, dann passiert gar nichts.

Das ganze funktioniert ganz gut mit kleinen Datensaetzen. Aber wenn ich das ganze fuer grosse datenSaetze ausfuehre dann wird sehr viel CPU in Anspruch genommen und dann ganze wird hinten heraus sehr sehr langsam.

Hat jemand eine Idee wie man die Duplikate noch heraus filtern koennte?

Gast · 8. Jan 2009

Was heißt den etwas konkreter groß und klein?

Du könntest ja im ersten schritt nur mit den IDs arbeiten und erst wenn du daraus eine eindeutige Liste erzeugt hast, die konkretn Daten aus der DB abfragen und umkopieren, oder sonst was damit anstellen.

SlaterB · 8. Jan 2009

sowas kann nicht lange dauern,
in einer Sekunde musst du mehr überprüfen können als überhaupt Objekte in den Arbeitsspeicher passen,
vom Laden/ Speichern/ Löschen dieser Daten ganz abgesehen,

speicherst du die fraglichen Objekte in der HashMap? brauchst du sie überhaupt?
reicht es nicht, nur die Ids zu speichern, dann ginge auch ein HashSet, welches intern aber auch nur eine HashMap verwendet

finde heraus, wie es zu der Langsamkeit kommt, was in der fraglichen Zeit alles passiert,
verwende testweise zum Zeitpunkt der Langsamkeit eine neue leere HashMap statt der alten (-> hats mit der Map zu tun oder nicht)

um wieviele Einträge gehts überhaupt, woher kommen die Daten?

MrVertigo · 8. Jan 2009

Meiner Meinung nach ist das problem die HashMap die zu gross wird. Die ganze Verarbeitung der Daten hat ja funktioniert, nur wurden die Daten bis jetzt nicht auf Duplikate ueberprueft, was nun aber so sein soll.
Also den Teil der die Daten aus der DB holt und den Teil der die Daten dann in das File schreibt habe ich nicht geaendert.

Ich habe nur den Check eingefuegt, der bevor eine Zeile in die Datei geschrieben wird, laeuft.

Nur die IDs aus der DB holen bringt nichts, denn das macht den Prozess noch langsamer.

Um Speicher zu sparen, speichere ich nur die ID in der HashMap, als Object gebe ich NULL mit.

Es handelt sich um ca 1 000 000 Datensaetze.

Gelöschtes Mitglied 5909 · 8. Jan 2009

ich würde ein bak.pcj.set.LongOpenHashSet von pcj verwenden

sehr schnell und braucht viel weniger Speicher als die java.util Version

http://pcj.sourceforge.net/

SlaterB · 8. Jan 2009

Code:

public class Test
{
    public static void main(String[] args)
        throws Exception
    {
        long time = System.currentTimeMillis();
        List<Integer> list = new ArrayList<Integer>();
        for (int i = 0; i < 1000000; i++)
        {
            list.add(Integer.valueOf((int)(Math.random() * 900000)));
        }
        System.out.println("time1: " + (System.currentTimeMillis() - time));
        Map<Integer, Integer> map = new HashMap<Integer, Integer>();
        Integer test = Integer.valueOf(-1);

        int countDouble = 0;
        for (Integer k : list)
        {
            if (map.put(k, test) != null)
            {
                countDouble++;
            }
        }
        System.out.println("time2: " + (System.currentTimeMillis() - time) 
             + ", double: " + countDouble);

    }
}

--------

Ausgabe:
time1: 562
time2: 1578, double: 395948

dauert also ungefähr eine Sekunde für 1 Mio. Objekte,

wenn jedes derartige Objekt 1000 Bytes belegt, dann kommt meine Aussage '1 Sekunde für ganzen Speicher' ja ganz gut hin

(wären dann ~1GB)

ich habe hier noch Objekte in die Map gespeichert, um nicht erst contains zu testen und dann noch einzufügen,
so macht es ein HashSet auch, welches du statt der Map verwenden könntest

-----

was dein Programm ansonsten langsam macht, kann ich derzeit nicht erahnen,
die Map braucht 20 MB Speicher

	Titel	Forum	Antworten	Datum
M	Duplikate in Array finden...	Java Basics - Anfänger-Themen	9	23. Mrz 2019
D	Wie kann man in Java nach Arrays auf Duplikate prüfen	Java Basics - Anfänger-Themen	12	22. Feb 2023
G	Java Objekte auf Duplikate testen	Java Basics - Anfänger-Themen	4	23. Mai 2020
G	Exception und Ausgabe der Duplikate	Java Basics - Anfänger-Themen	6	21. Jun 2018
M	Liste ohne Duplikate	Java Basics - Anfänger-Themen	8	26. Nov 2017
I	Input/Output 3 Werte in Datei schreiben, duplikate vermeiden	Java Basics - Anfänger-Themen	4	8. Feb 2016
E	Listen und Duplikate	Java Basics - Anfänger-Themen	2	3. Apr 2012
E	Array untereinander auf Duplikate prüfen	Java Basics - Anfänger-Themen	8	16. Jan 2012
J	Duplikate aus Liste entfernen	Java Basics - Anfänger-Themen	16	3. Jan 2012
N	Suche Technik um Wert-Duplikate auszuschließen	Java Basics - Anfänger-Themen	3	15. Sep 2009
0	Dynamische Datenstruktur ohne Duplikate und mit direkter Elementauswahl	Java Basics - Anfänger-Themen	3	21. Feb 2009
G	Geht das effizienter?: Einlesen > Duplikate entf > Spe	Java Basics - Anfänger-Themen	13	26. Jul 2008
B	Best Practice Schaltfläche im Bild finden	Java Basics - Anfänger-Themen	8	1. Dez 2024
J	Ähnlichen String in Liste finden	Java Basics - Anfänger-Themen	6	20. Dez 2023
B	Alle Zahlen finden, die 3 bestimmte Ziffern enthalten?	Java Basics - Anfänger-Themen	9	15. Nov 2022
D	Kleinste Zahl in Array finden die vorher noch errechnet werden müssen.	Java Basics - Anfänger-Themen	4	25. Okt 2022
	Fehlenden Code finden in einer while-Schleife?	Java Basics - Anfänger-Themen	11	23. Okt 2022
J	for Schleife kleinste Zufallszahl finden	Java Basics - Anfänger-Themen	25	15. Okt 2022
モ	Substring in einem String finden	Java Basics - Anfänger-Themen	13	3. Aug 2022
B	Den Dateipfad einer Java Datei durch Code in Selbiger finden?	Java Basics - Anfänger-Themen	10	27. Mai 2022
G	Position einer unbekannten 3-stelligen-Zahl in einem String finden	Java Basics - Anfänger-Themen	15	28. Apr 2022
	Java Nachhilfe - wo finden?	Java Basics - Anfänger-Themen	9	29. Mrz 2022
	Rekursion größten Primfaktor finden funktioniert nicht	Java Basics - Anfänger-Themen	8	16. Feb 2022
	Char Index rekursiv finden	Java Basics - Anfänger-Themen	4	22. Dez 2021
M	Datums-Palindrome finden	Java Basics - Anfänger-Themen	9	14. Okt 2021
H	Primzahlen finden - Zeit optimieren	Java Basics - Anfänger-Themen	34	20. Aug 2021
B	in einem Array den nächstgelegenen Wert zu einem eingabewert finden	Java Basics - Anfänger-Themen	8	12. Aug 2021
B	String - Wörter finden, welches Punkt und entsprechender Pre / Suffix hat?	Java Basics - Anfänger-Themen	30	7. Jul 2021
S	Schwachstelle finden	Java Basics - Anfänger-Themen	11	15. Mai 2021
D	kleinste Wurzel finden	Java Basics - Anfänger-Themen	9	22. Apr 2021
	Richtigen Pfad beim einlesen von Datei finden	Java Basics - Anfänger-Themen	2	31. Jan 2021
	Wo kann man einen Java Lehrplan finden?	Java Basics - Anfänger-Themen	5	28. Dez 2020
Y	Wie kann ich ein Element in einer toString finden.	Java Basics - Anfänger-Themen	2	24. Dez 2020
V	Beliebige Dreistellige Zahl Teiler finden	Java Basics - Anfänger-Themen	4	26. Nov 2020
J	Lösungen zu einem Lückentext finden	Java Basics - Anfänger-Themen	0	22. Nov 2020
S	Input/Output Reader/Writer finden file nicht	Java Basics - Anfänger-Themen	3	10. Jun 2020
S	Streams - kleinstes Element finden	Java Basics - Anfänger-Themen	4	10. Mai 2020
L	Koordinate mit meisten Überlappungen in 3D-Raum finden	Java Basics - Anfänger-Themen	9	5. Mai 2020
	Größten gemeinsamen Teiler finden	Java Basics - Anfänger-Themen	7	4. Mai 2020
F	Methoden Bitte Helft mir meinen Fehler zu finden. Möchte in diesem Bankenprogramm durch die Konsoleneingabe auswählen welches Konto reduziert und welches erhö	Java Basics - Anfänger-Themen	17	28. Apr 2020
	Fehlende Int Werte aus Array mit streams finden	Java Basics - Anfänger-Themen	19	21. Feb 2020
I	Preis finden für ein Uber-App(?)	Java Basics - Anfänger-Themen	3	14. Dez 2019
D	Binärbaum Blätter finden und Ausgeben	Java Basics - Anfänger-Themen	22	15. Jul 2019
L	Classpath Alle Dateien im Classpath finden	Java Basics - Anfänger-Themen	4	24. Jun 2019
O	Suchbaum Elternknoten finden Level eines Knoten bestimmen	Java Basics - Anfänger-Themen	24	13. Jun 2019
H	pfad finden	Java Basics - Anfänger-Themen	12	10. Mai 2019
G	Excle datei aus resources folder finden und lesen	Java Basics - Anfänger-Themen	5	11. Apr 2019
A	Mit Rekursion Zufallszahlen erstellen und größte finden	Java Basics - Anfänger-Themen	5	30. Jan 2019
S	Maxium aus einer File finden	Java Basics - Anfänger-Themen	12	6. Dez 2018
R	HTTP-Links in Java Class finden	Java Basics - Anfänger-Themen	3	24. Nov 2018
S	Substrings finden	Java Basics - Anfänger-Themen	5	7. Nov 2018
C	Finden mehrerer Lösungen	Java Basics - Anfänger-Themen	0	1. Nov 2018
L	Backupdateien finden	Java Basics - Anfänger-Themen	8	15. Sep 2018
D	doc.seect jsouo bestimmtes class element finden	Java Basics - Anfänger-Themen	1	23. Aug 2018
N	Anfang eine Array Schleife finden	Java Basics - Anfänger-Themen	18	20. Okt 2017
D	Erste Schritte Aktivsten Zweistündigen Abschnitt finden	Java Basics - Anfänger-Themen	35	24. Aug 2017
I	Richtige Java-Version finden?	Java Basics - Anfänger-Themen	17	27. Jun 2017
	Alle Zahlenkombinationen aus 9 zahlen finden	Java Basics - Anfänger-Themen	17	16. Jun 2017
S	Erste Schritte Zwischen zwei Punkten ein Minimumpkt./Maxima finden	Java Basics - Anfänger-Themen	1	4. Mai 2017
M	Denn dichtesten Wert finden	Java Basics - Anfänger-Themen	3	24. Apr 2017
N	Objekte in ArrayList finden	Java Basics - Anfänger-Themen	10	17. Mrz 2017
D	Die Zahl in der Mitte finden	Java Basics - Anfänger-Themen	20	29. Jan 2017
	Größte zahl eines Arrays finden	Java Basics - Anfänger-Themen	1	8. Nov 2016
H	Fehler finden	Java Basics - Anfänger-Themen	5	20. Jul 2016
R	Best Practice Palindrom in einem Text finden	Java Basics - Anfänger-Themen	18	30. Mai 2016
M	Kleinsten Index in Array finden	Java Basics - Anfänger-Themen	6	4. Apr 2016
S	Objekt finden und benutzen	Java Basics - Anfänger-Themen	3	30. Nov 2015
C	Lottospiel kann Fehler nicht finden Java	Java Basics - Anfänger-Themen	6	19. Nov 2015
F	System kann die Datei nicht finden	Java Basics - Anfänger-Themen	7	8. Nov 2015
D	Werte in eckige Klammern finden	Java Basics - Anfänger-Themen	3	5. Sep 2015
S	Input/Output Buchstaben in Eingabe finden und ausgeben	Java Basics - Anfänger-Themen	5	20. Aug 2015
A	regulären Ausdruck mit Hilfe der Klasse Scanner in einem String finden	Java Basics - Anfänger-Themen	2	30. Jun 2015
N	Objekt in einer Liste finden?	Java Basics - Anfänger-Themen	3	20. Feb 2015
C	Finden und verändern	Java Basics - Anfänger-Themen	1	3. Feb 2015
T	Erste Schritte Elemente finden, deren Name erst "zusammengesetzt" wird	Java Basics - Anfänger-Themen	8	23. Nov 2014
A	Max finden und umtauschen	Java Basics - Anfänger-Themen	2	15. Nov 2014
K	String in String-Array finden	Java Basics - Anfänger-Themen	7	14. Nov 2014
S	Baumstruktur: tiefsten Knoten finden	Java Basics - Anfänger-Themen	3	14. Jul 2014
D	Ein Objekt in einem Baum finden und ausgeben.	Java Basics - Anfänger-Themen	4	15. Jun 2014
F	Erste Schritte Hilfe beim Algorithmus finden	Java Basics - Anfänger-Themen	8	6. Jun 2014
D	Zahl in einem String finden	Java Basics - Anfänger-Themen	4	22. Feb 2014
C	Methoden Diagonalen am best. Punkt im zweidimensionales array finden	Java Basics - Anfänger-Themen	3	12. Jan 2014
A	Compiler-Fehler Kann Fehler nicht finden	Java Basics - Anfänger-Themen	2	11. Jan 2014
R	Fehler finden die 2.	Java Basics - Anfänger-Themen	7	5. Jan 2014
N	Bug finden im Programm	Java Basics - Anfänger-Themen	13	8. Dez 2013
P	letzte Datei finden	Java Basics - Anfänger-Themen	18	23. Nov 2013
M	Zwei gleiche Eintraege in ArrayList finden	Java Basics - Anfänger-Themen	15	1. Okt 2013
J	Inhalt in einem Text-File finden und in ein Array schreiben	Java Basics - Anfänger-Themen	5	5. Feb 2013
I	String in .txt finden	Java Basics - Anfänger-Themen	9	12. Jan 2013
T	Wörter mit @ als Zeichen finden	Java Basics - Anfänger-Themen	13	7. Jan 2013
J	Methoden Kann Fehler nicht finden	Java Basics - Anfänger-Themen	6	4. Jan 2013
M	Letztes Element im Array finden	Java Basics - Anfänger-Themen	3	12. Dez 2012
R	Erste Schritte Minimum und Maximum in Array finden	Java Basics - Anfänger-Themen	29	16. Nov 2012
H	Schnell HTML-Tags finden	Java Basics - Anfänger-Themen	5	9. Nov 2012
	Wo sind die Java Standard Library Source Codes zu finden?	Java Basics - Anfänger-Themen	5	6. Nov 2012
R	Rekursive Methode, Files finden	Java Basics - Anfänger-Themen	2	16. Okt 2012
S	brauche hilfe beim fehler finden	Java Basics - Anfänger-Themen	2	16. Jul 2012
B	Dokumentation in der jre-Library finden	Java Basics - Anfänger-Themen	9	4. Jul 2012
T	Datentypen Knoten Großvater finden?	Java Basics - Anfänger-Themen	12	9. Jun 2012
A	Fehler finden und Ausgabe	Java Basics - Anfänger-Themen	14	25. Mai 2012

Duplikate finden

MrVertigo

Gast

Gast

Gast

SlaterB

Gast

MrVertigo

Gast

Gelöschtes Mitglied 5909

Gast

SlaterB

Gast

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen