M
MrVertigo
Gast
Hallo,
ich habe eine Liste von Daten (die in einer Datei steht oder aus der DB kommt), wobei jeder Datensatz eine ID hat, die nicht immer eindeutig ist.
Nun soll ich die List von Daten durch gehen und die Duplikate (IDs) raus filtern.
Mein erste Ansatz war eine HashMap anzulegne in der ich die ID speichere.
Ich nehme mir also ein Element von der List, ueberpruefe ob die dazugehoerige ID schon in der HashMap ist. Ist sie noch nicht in der HashMap dann packe ich sie mit in die HashMap und den dazugehoerigen Datensatz wird in die Ausgangsdatei geschrieben. Wenn die ID schon in der HashMap ist, dann passiert gar nichts.
Das ganze funktioniert ganz gut mit kleinen Datensaetzen. Aber wenn ich das ganze fuer grosse datenSaetze ausfuehre dann wird sehr viel CPU in Anspruch genommen und dann ganze wird hinten heraus sehr sehr langsam.
Hat jemand eine Idee wie man die Duplikate noch heraus filtern koennte?
ich habe eine Liste von Daten (die in einer Datei steht oder aus der DB kommt), wobei jeder Datensatz eine ID hat, die nicht immer eindeutig ist.
Nun soll ich die List von Daten durch gehen und die Duplikate (IDs) raus filtern.
Mein erste Ansatz war eine HashMap anzulegne in der ich die ID speichere.
Ich nehme mir also ein Element von der List, ueberpruefe ob die dazugehoerige ID schon in der HashMap ist. Ist sie noch nicht in der HashMap dann packe ich sie mit in die HashMap und den dazugehoerigen Datensatz wird in die Ausgangsdatei geschrieben. Wenn die ID schon in der HashMap ist, dann passiert gar nichts.
Das ganze funktioniert ganz gut mit kleinen Datensaetzen. Aber wenn ich das ganze fuer grosse datenSaetze ausfuehre dann wird sehr viel CPU in Anspruch genommen und dann ganze wird hinten heraus sehr sehr langsam.
Hat jemand eine Idee wie man die Duplikate noch heraus filtern koennte?