Collections Schnellster Container für 4Byte vergleiche

Letters90

Mitglied
Hi,

Ich bin derzeit daran nen Crawler als Teil eines größeren Programmes zu schreiben, dabei kommt es vor das man mal gerne über eine Seite ca. 40.000-3.000.000 verschiedene URLS hat, damit diese nicht mehrfach abgefragt werden habe ich sie in ner ArrayList abgespeichert, dann über Contains(Object) auf die Equals methode eine Hashvergleich über einen 4byte integer.

Java:
synchronized (synchronizeON) {
      isInside = (Visited.contains(item) || toVisit.contains(item));
    }

Java:
  public boolean equals(Object obj) {
    if (obj == null) {
      return false;
    }
    if (!(obj instanceof mrURL)) {
      return false; // different class
    }
    if (this.Hashcode == ((mrURL) obj).Hashcode) {
      return true;
    }
    return false;
  }

Die Suchzeiten steigen aber nunman wie erwartet nach ner gewissen laufzeit und containergröße an, das geht bei 50.000 Elementen mit ca. 120ms aufwärts.

Jetzt bin ich aber in java nicht so gewandt das ich alle möglichen guten container kenne, kennt jemand von euch einen container mit dem ich da mehr geschwindigkeit bei wachsender datenmenge rausholen könnte? random access brauche ich dabei nicht.

( binärbaum könnte ich mir da gut vorstellen, wie heißen die in java :D ? )
 
Zuletzt bearbeitet:
S

Spacerat

Gast
Vergiss die ArrayList, vergiss equals... Hashcode ist der einzige Ansatz den du brauchst aber halt ein ganz spezieller, nämlich der Instanzhashcode bzw. die Identität der URLs. Diese kannst du in einer zum Set "kastrierten" IdentityHashMap<URL, Boolean> sammeln.
Hinzufügen per [c]visited.put(visitedUrl, Boolean.TRUE);[/c], abfragen über [c]visited.containsKey(url);[/c]
 

Letters90

Mitglied
Ich test das gerade mal durch, sieht aber schonmal nicht schlecht aus. Danke :)

Gott stell ich mich wieder dämlich an, bis ich grad verstanden warum du in deinem beispiel als value boolean drinne hast tz... ( für die die genauso dämlich sind, es ist ne reduzierung auf die überprüfung des keys da die daten selbst nicht gebraucht werden, desshalb kleinst möglichen datentyp: boolean )

Ich krieg die Identity Hashmap partout nicht dazu auf die hashCode() methode zuzugreifen.

Ich habs jetzt mit ner HashMap implementiert und werd mal schauen wie gut ich die capacity anpassen kann.

Aber danke schonmal, hab jetzt schonmal soweit nen performance gain das er er nach 10% nicht bei 150kbyte/s rumgammelt sondern noch an 6mbyte/s bleibt.
 
Zuletzt bearbeitet:
S

Spacerat

Gast
Ach so ist das. gleiche URLs haben nicht die selbe Identität? Dann sag' das doch :oops:. Dann nimm TreeSet. Ein TreeSet steigt bei ungleichen Objekten evtl. schon vor equals aus hashcode, das müsste man testen.
ABER: Da man sich bei der Auswahl der Interfaces einer URL anscheinend geirrt hat, implementiert eine solche Serializable statt Comparable. Eine URL ist deswegen zur Sortierung nicht geeignet, weswegen man selber einen Comparator bauen müsste. In diesem Fall genügt glücklicherweise ein allgemeiner TO_STRING_COMPARATOR:
Java:
public static final Comparator<Object> TO_STRING_COMPARATOR = new Comparator<Object>() {
		@Override
		public int compare(Object o1, Object o2) {
			if (o1 == null) {
				return (o2 == null) ? 0 : -1;
			} else if (o2 == null) {
				return 1;
			}
			return o1.toString().compareTo(o2.toString());
		}
	};
Ein simpler Vergleich über Hashcodes könnte dazu führen, dass zwei verschiedene URLs als gleich angesehen werden. Eine Equals-Hashcode-Rekursion sollte nicht zuletzt nur deswegen vwrmieden werden.
@faetzminator: Jep... von der Identity-Reihe gibt es aber leider kein Set. Die "Kastration" einer Map zu einem solchen ist aber recht einfach wie man sieht.
 
Zuletzt bearbeitet von einem Moderator:

Letters90

Mitglied
String compares will ich zwingend vermeiden, die sind einfach zu langsam. Hab jetzt bei ca. 2,5mio elementen ( wären mindestens 30byte vergleiche auf strings ) ne Suchlaufzeit von 5ms durch die Hashmap, bin damit also ganz gut zufrieden. Doppelte elemente sind unwarscheinlich, sollte es doch vorkommen dann werd ich die datenmenge für den hash nochmal begrenzen dann sind die ausgeschlossen. ( 1% doppelte elemente begrenzen die funktionalität auch nicht )

Also bin so wies ist zufrieden, schneller kann ichs zurzeit nicht testen da meine Leitung nicht mehr hergibt, aber da es end user programm werden soll ist das auch vollkommen ausreichend
( toVisit hat größen zwischen 20-200 da ist ArrayList vertretbar)

Java:
public class URLTracer {

  private static HashMap<mrURL, Object> Visited = new HashMap<mrURL, Object>(3500000);
  // Hashmap capacity wird noch in den config files hinterlegt
  private ArrayList<mrURL> toVisit;
  private static final Object synchronizeON = new Object();

  public URLTracer() {
    toVisit = new ArrayList<mrURL>();
  }

  public boolean isEmpty() {
    return toVisit.isEmpty();
  }

  public boolean insert(mrURL item) {
    boolean isInside;
    synchronized (synchronizeON) {
      isInside = (toVisit.contains(item) || Visited.containsKey(item));
    }
    if (isInside == true) {
      return false;
    }
    toVisit.add(item);
    return true;
  }

  public mrURL pop() {
    if (!isEmpty()) {
      synchronized (synchronizeON) {
        Visited.put(toVisit.get(0), null);
      }
      mrURL Temp = toVisit.get(0);
      toVisit.remove(0);
      return Temp;
    }
    return null;
  }

  static public int getVisitedSize() {
    return Visited.size();
  }
}

optimierungen werde ich wohl noch einige dran machen ^^ aber jetzt kann ich mich wieder mehr auf die datenbankanbindung konzentrieren :)
 
Zuletzt bearbeitet:
S

Spacerat

Gast
Okay... Das was du noch sofort optimieren könntest wäre die HashMap durch ein HashSet (wie es faetzminator schon vorgeschlagen hat) zu ersetzen. Obwohl... HashSet ist auch nichts anderes, als das, was du aus der Map gemacht hast, nur ein "put(Object, null);" ist immer ungünstig, denn <Map>.containsValue() würde undefinierte Ergebnisse liefern, wenn man sie ausversehen mal benutzen sollte. Mach' ein konstantes Objekt (z.B. "PRESENT") draus.
 
Zuletzt bearbeitet von einem Moderator:
N

nillehammer

Gast
"Verwende Sets" ist schon geschrieben worden. Hiermit stellst Du sicher, dass keine Duplikate vorhanden sind und je nach Implementierung geht die contains-Prüfung beim adden auch wesentlich schneller als bei einer List. Auch brauchst Du dann keine eigenimplementierten hashCode-Klimmzüge mehr zu machen. Sowas gehört zu den sog. Infrastrukturmethoden, die jedes Objekt in Java bereits hat.

Zweiter wichtiger Ansatz zur Optimierung ist: "Vermeide URL und nimm URI". Bei URL wird nämlich in der equals-Methode ein DNS-Lookup gemacht. Das bremst richtig aus! Wahrscheinlich sogar noch mehr, als eine List iterativ zu durchlaufen.
 

Letters90

Mitglied
"Verwende Sets" ist schon geschrieben worden. Hiermit stellst Du sicher, dass keine Duplikate vorhanden sind und je nach Implementierung geht die contains-Prüfung beim adden auch wesentlich schneller als bei einer List. Auch brauchst Du dann keine eigenimplementierten hashCode-Klimmzüge mehr zu machen. Sowas gehört zu den sog. Infrastrukturmethoden, die jedes Objekt in Java bereits hat.

Zweiter wichtiger Ansatz zur Optimierung ist: "Vermeide URL und nimm URI". Bei URL wird nämlich in der equals-Methode ein DNS-Lookup gemacht. Das bremst richtig aus! Wahrscheinlich sogar noch mehr, als eine List iterativ zu durchlaufen.

Ich hab im Hashset quellcode nachgeschaut, ist ne ähnliche implementierung zu meiner. Bin trotzdem zur sauberkeit auf sets umgestiegen.

Eigenimplementierung vom hashCode ist mir wichtig, ich gehe über meine Implementierung sicher das der Hashcode nur einmal im konstruktor erzeugt wird, objekte von mrURL sind soft-final, URL equals wird in meinem Quellcode nicht verwendet aber vielen dank für den Tip.

( einmalige hashcode erzeugung ist mir wegen der datenmenge wichtig, bei ca. 2 Mio vergleiche für jeden string einen hashcode zu erstellen ( ich bin die hashcode methode des Strings nicht abgelaufen aber ich gehe vom worstcase aus ) würde mir performance entziehen )

warum sollten genau die sets duplikate ausschließen und auf welchem kriterium?
 

Letters90

Mitglied
Interessant, wert einen Blick auf die implementierung und die Unterschiede zwischen Set und Map zu werfen !

HashMap Put:

Java:
public V put(K key, V value) {
        if (key == null)
            return putForNullKey(value);
        int hash = hash(key.hashCode());
        int i = indexFor(hash, table.length);
        for (Entry<K,V> e = table[i]; e != null; e = e.next) {
            Object k;
            if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
                V oldValue = e.value;
                e.value = value;
                e.recordAccess(this);
                return oldValue;
            }
        }

        modCount++;
        addEntry(hash, key, value, i);
        return null;
    }

HashSet Member:

Java:
private transient HashMap<E,Object> map;

HashSet add

Java:
public boolean add(E e) {
        return map.put(e, PRESENT)==null;
    }

Nicht allzu überraschend da ich da schonmal durch bin, aber erklärt nun warum mein key kein primärer datentyp sein kann. Identität und Gleichheit ist klar, habe mich bei der vorgerhenden Aussage wohl zu sehr auf meinen Code beschränkt oder es waren die ArrayLists für toVisit gemeint.

Werde bei toVisit wohl doch bei den Listen bleiben da hier die Zugriffsmethoden und die innere ordnung passender sind, zudem bleibt der container im garantiert schnellem bereich.

Vielen dank nochmal fürs darauf aufmerksam machen
 
Zuletzt bearbeitet:
Ähnliche Java Themen
  Titel Forum Antworten Datum
MarekLanger Filepath in Log4j2 in Docker Container Allgemeine Java-Themen 12
B Thread.sleep() in EJB Container wie lösen? Allgemeine Java-Themen 11
J Gebautes Jar per Maven in einen Docker Container kopieren Allgemeine Java-Themen 0
HarleyDavidson Best Practice Suche "Container" für Modulapplikationen Allgemeine Java-Themen 0
D Eigene/r Collection/Container Allgemeine Java-Themen 3
S Suche Dependency Injection Container Allgemeine Java-Themen 6
A Container für tochterklassen? Allgemeine Java-Themen 4
J J2EE Server für EJB Container Allgemeine Java-Themen 8
D Frames und Container Allgemeine Java-Themen 16
G Button-Array überschreiben und dem Container zufügen? Allgemeine Java-Themen 2
T S: Passenden "Container" for ByteBUffer Pool Allgemeine Java-Themen 6
E Container-Pack-Algorithmus Allgemeine Java-Themen 4
S Suche schnellen Container Typ Queue Allgemeine Java-Themen 7
P adding a window to a container Allgemeine Java-Themen 3
D asynchrone "Container" Allgemeine Java-Themen 5
M Container aktualisieren. Nur wie? Allgemeine Java-Themen 3
B Algorithmus für Arbeit mit fehlenden Listenelementen? Allgemeine Java-Themen 1
kodela Eingabe für TextArray bedingt sperren Allgemeine Java-Themen 3
Karl_Der_Nette_Anfänger Hat wer ne Lösung für verknüpfte Postleitzahlen? (Baum/Wurzel Struktur) Allgemeine Java-Themen 11
R 11 GB File lesen ohne zu extrahieren Filedaten Bereich für Bereich adressieren dann mit Multi-Thread id die DB importieren Allgemeine Java-Themen 3
G KeyListener für JTextField Allgemeine Java-Themen 5
webracer999 Library für Textsuche (z. B. include/exclude, and/or)? Allgemeine Java-Themen 5
I Module-Info für Jar erzeugen Allgemeine Java-Themen 7
krgewb Java-Bibliothek für ONVIF Allgemeine Java-Themen 1
B Simpler Eventlistener für Tastaturtaste bauen? Allgemeine Java-Themen 13
_user_q Eingegebenen Text Zeile für Zeile ausgeben lassen Allgemeine Java-Themen 11
E Key für TOTP Algorythmus(Google Authentificator) Allgemeine Java-Themen 0
S Formel für Sonnenwinkel in ein Programm überführen Allgemeine Java-Themen 11
M pfx-Zertifikat in Tomcat für SSL-Verschlüsselung nutzen Allgemeine Java-Themen 14
R Best Practice Erfahrungswerte für eine Migration von JSF nach Angular (oder anderes JS-Framework) Allgemeine Java-Themen 1
B HeapSort für Array of Strings funktioniert nur teilweise Allgemeine Java-Themen 3
jhCDtGVjcZGcfzug Klassen Was genau passiert hier? Kann mir das jemand bitte Zeile für Zeile erklären? Allgemeine Java-Themen 1
rosima26 Bester Sortieralgorithmus für kurze Arrays Allgemeine Java-Themen 40
S Mit Methoden kann man definieren für was <T> steht. Geht das auch irgendwie für Variablen? Allgemeine Java-Themen 12
MangoTango Operatoren while-Schleife für Potenz Allgemeine Java-Themen 3
B Lottospiel, genug Reihen tippen für 3 Richtige (Spaß mit Arrays)? Allgemeine Java-Themen 46
B Mit welchen Datentypen und Strukturierung am Besten dutzende Baccaratspiele Shcritt für Schritt durchsimulieren? Allgemeine Java-Themen 26
D Klassendesign für einen Pascal Interpreter Allgemeine Java-Themen 6
I OCR Library für Belegerkennung Allgemeine Java-Themen 7
farah GetterMathod für Farbkanäle Allgemeine Java-Themen 6
B Welcher Datentyp für sehr große Zahlenbereiche? Allgemeine Java-Themen 1
S Webservices für binäre Daten? Allgemeine Java-Themen 5
G Licence-Header für InHouse entwickelten Source Allgemeine Java-Themen 8
M Schleife für einen TicTacToe Computer Allgemeine Java-Themen 5
O git ignore für Intellji braucht es die .idea Dateien? Allgemeine Java-Themen 8
F Java Script für das Vorhaben das richtige? Allgemeine Java-Themen 9
M wiviel Java muss ich für die Berufswelt können ? Allgemeine Java-Themen 5
Robertop Datumsformat für GB ab Java 16 Allgemeine Java-Themen 1
Thallius Verschiedene entities für gleichen Code…. Allgemeine Java-Themen 8
OnDemand Zentrale "Drehscheibe" für verschiedene APIs Allgemeine Java-Themen 14
S Übergabe eines Sortierkriteriums für ein Artikel Array mittels BiPredicate<Artikel, Artikel> Allgemeine Java-Themen 13
F Streams als Alternative für dieses Problem ? Allgemeine Java-Themen 15
D SHA-3 für Java-version 1.8 Allgemeine Java-Themen 1
N Validator für einen SQL-Befehl Allgemeine Java-Themen 22
Muatasem Hammud Erstellung von Testdaten für Arrays Allgemeine Java-Themen 6
B Logikfehlersuche, das perfekte Lottosystem für 3 Richtige mit Arraylists? Allgemeine Java-Themen 61
G Methoden für die Zukunft sinnvoll? Allgemeine Java-Themen 4
M API für PLZ Umkreissuche Allgemeine Java-Themen 3
1Spinne JDK 8 für Eclipse installieren Allgemeine Java-Themen 5
Tobero Meine Funktion für das beinhalten eines Punktes in einem Kreis funktioniert nicht Allgemeine Java-Themen 5
L Methoden Parser für gängige Datumsformate? Allgemeine Java-Themen 1
H Interface PluginSystem ClassNotFound exception für library Klassen Allgemeine Java-Themen 10
N relativier Pfad für sqlite-Datenbank in Gradle/IntelliJ Allgemeine Java-Themen 2
buchfrau Anagram für beliebiges Wort Allgemeine Java-Themen 2
TonioTec Api für Datenaustausch zwischen Client und Server Allgemeine Java-Themen 0
W Suche Ursache für NPE - woher kommt sie? (Hilfe beim Debugging) Allgemeine Java-Themen 19
Kirby.exe Distanz Map für die Distanztransformation erstellen Allgemeine Java-Themen 1
F PI Regler für Heizung Allgemeine Java-Themen 7
8u3631984 Generelle Log4j.xml für alle Module Allgemeine Java-Themen 5
M Wie übergebe ich den Zähler für die Anzahl Rekursionsschritte korrekt? Allgemeine Java-Themen 2
B Login für User, der im Hintergrund Schedules ausführt Allgemeine Java-Themen 16
L RegEx für Teile einer Berechnung Allgemeine Java-Themen 14
S Java-Task-Management-Tool für Windows und Mac selber programmieren Allgemeine Java-Themen 4
M Java 2D Array für ein Grid erstellen ? Allgemeine Java-Themen 2
Z Welches GUI Framework für Java ist aktuell? Allgemeine Java-Themen 16
N Convert.FromBase64 von C# für Java Allgemeine Java-Themen 11
N fixed-keyword von C# für Java Allgemeine Java-Themen 6
O Suche Scripter für alt:V Project! Allgemeine Java-Themen 0
S Interface Design von HookUp oder Callback Methoden für eigenes Framework Allgemeine Java-Themen 9
O Suche Unterstützung für ein OpenSource-Projekt (grafischer Editor) Allgemeine Java-Themen 13
Kirby.exe Software für Graphische Visualisierung Allgemeine Java-Themen 20
B OOP Auslöser für NullPointerException Allgemeine Java-Themen 3
L Generator für einen Parser implementieren Allgemeine Java-Themen 13
DonMalte Ambitioniertes Projekt für Einsteiger & Motivierte Allgemeine Java-Themen 0
Kirby.exe Movement System für Spiel Allgemeine Java-Themen 13
Kirby.exe Framework für Game Design Allgemeine Java-Themen 8
W Alternative für Threads Allgemeine Java-Themen 6
S Rückgabe einer HttpURLConnection für eine Seite einlesen bei der man eingeloggt ist..? Allgemeine Java-Themen 5
Elyt Compiler-Fehler Datei kann nicht erstellt werden. Die Syntax für den Dateinamen etc. ist falsch. Allgemeine Java-Themen 2
Thallius Rätsel für Windows Profis Allgemeine Java-Themen 8
D OOP Gemeinsamen ID-Raum für zwei Klassen implementieren Allgemeine Java-Themen 7
D Input/Output Implementierung eines CommandHandlers/Parsers für viele Eingaben Allgemeine Java-Themen 26
Thallius Alternative für SwingWorker Allgemeine Java-Themen 5
I Lohnt sich heutzutage der Aufwand einer Portierung für MacOS Allgemeine Java-Themen 8
L Klassen Algorithmus für das folgende Problem entwickeln? Allgemeine Java-Themen 30
J Datenstruktur für eine Map erstellen Allgemeine Java-Themen 2
H OOP Setting(config) für Applikation sicheren? Allgemeine Java-Themen 9
OnDemand PDF Libary für Formulare Allgemeine Java-Themen 7
S Warmup für Lineare-Suche mit Zeitmessung Allgemeine Java-Themen 2
T Allgemeine Frage: GUI für 3D-Visualisierung Allgemeine Java-Themen 5

Ähnliche Java Themen

Neue Themen


Oben