Java Performance im Vergleich zu C++ in speziellem Anwendungsfall

Unregistriert · 24. Okt 2009

Hi Leute!

Das soll kein Allgemeiner Java ist schneller/langsamer als Sprache X Flamewar werden! Ich verarbeite auf einem Hochleistungsrechner riesengrosse Inputdateien. Da ich zwischen den Durchlaeufen meines Programmes immer wieder viel Wartezeit hab, hab ich mir gedacht ich schreib das gleiche Programm mal in mehreren Sprachen, um zu sehen ob sichs wirklich lohnt, dass ich das ganze in C++ implementiert hab, oder ob ichs genauso gut in einer Sprache haette schreiben koennen, die weniger lowlevel ist. Da ich aber schon laenger kein Java geschrieben hab, hab ich mir gedacht ich frag mal hier nach ob irgendwer interessiert ist eine optimierte Version des Programms zu schreiben, deren Zeitverbrauch ich dann messen kann. Ist zwar ein Microbenchmark, aber immerhin ein realworld Problem

Folgende Aufgabestellung:
In einem Verzeichnis finden sich viele Unterverzeichnisse, die mit "B" anfangen. In (fast!) jedem dieser Unterverzeichnisse liegt eine Datei names "out.gz". Das sind gz-komprimierte Dateien, die Zeilen der folgenden Art enthalten:

Code:

r0000000002_0000013	+	chr5	15066603
r0000000002_0000013	+	chr16	83182741
r0000000002_0000013	+	chr2	143804139
r0000000002_0000013	+	chr2	37058717
r0000000002_0000013	+	chr9	129767214
r0000000002_0000013	+	chr8	95742116
r0000000002_0000013	+	chr13	26811053
r0000000002_0000013	+	chr6	126964211
r0000000002_0000013	+	chr13	99652112
r0000000002_0000013	+	chr13	20842317
r0000000082_0000001	-	chr2	132519799	27:T>N
r0000000082_0000001	-	chr12	12822087	27:T>N
r0000000082_0000001	-	chr18	27977283	27:T>N
r0000000082_0000001	-	chr16	2737473	27:T>N

d.h. als Regex schaut die Zeile wie folgt aus: r\d+_\d+\s(+|-)\schr\d+\s\d+(.*)

Aus jeder Zeile muss ich die Zahl gleich nach dem chr (die liegt immer zwischen 1 und 22 inklusive) sowie die darauffolgende, laengere Zahl extrahieren. Dann muss ich zaehlen, bei wievielen Zahlen Zahl 1 einem bestimmten Wert entspricht und Zahl 2 in einem bestimmten Bereich liegt. Diese Anzahl soll dann (fuer jede Datei) auf der Konsole ausgegeben werden. Nichts anderes soll ausgegeben werden.

Ich habe das Programm bisher in C++ sowie in Perl implementiert. Beide Implementierungen bearbeiten jeweils 24 Dateien auf einmal (in entsprechenden Threads). Ausserdem verwenden beide das Unix-Programm 'zcat' zum Entpacken der gz-Datei -- auf dem Rechner, auf dem ich die Zeit messe, darf ich 32 Rechenkerne verwenden, also darf paralellisiert werden.

Ich spar euch meine C++ Implementierung, in Perl schaut das ganze wie folgt aus:

Java:

#/usr/bin/perl

use strict;
use threads;
use threads::shared;
use Fcntl ':mode';

my @dirs : shared;

sub process($)
{
	my $dir = shift;
	my $target_chr = 6;
	my $target_start = 110000000;
	my $target_end = 110001000;
	my $cnt = 0;

	open(my $input, "zcat $dir/out.gz |") or die "open() failed on $dir: $!";
	while (<$input>)
	{
		/chr(\d+)\s+(\d+)/;
		my ($chr, $start) = ($1, $2);
		if ($chr == $target_chr && $target_start <= $start && $start < $target_end)
		{
			++$cnt;
		}
	}
	close($input);
	
	return $cnt;
}

sub threadmain()
{
	my $dir;
	my $cnt;
	while (1)
	{
		{
			lock(@dirs);
			return if ($#dirs == -1);
			$dir = shift(@dirs);
		}
		$cnt = process($dir);
		
		# make sure only one thread is writing!
		{
			lock(@dirs);
			print $cnt;
		}
	}
}

my $dir;
while ($dir = </bioinf_ag/data/hapmapSeq/B*>)
{
	my @stat = stat($dir);
	next if (!S_ISDIR($stat[2]));
#	print "$dir\n";
	push(@dirs, $dir);
}

my $num_threads = 24;
my @threads;
for (my $i = 0; $i < $num_threads; ++$i)
{
	push(@threads, threads->create(\&threadmain));
}

foreach my $t (@threads)
{
	$t->join();
}

Die Perl-Version benoetigt 10 Stunden, um alle Dateien zu verarbeiten, C++ schaffts in 2. Mich wuerds interessieren, wie schnell eine ordentlich geschriebene Java-Version ist. Wenn das sonst noch wen interessieren bin ich gespannt auf eure Loesungen

ice-breaker · 24. Okt 2009

Öhm, bist du dir sicher, dass es sinnvoll ist 24 Dateien zeitgleich von der Festplatte zu lesen?
Wenn du 24 Dateien zeitgleich laden willst, müsste die Festplatte also dauerhaft mit dem Lesekopf hinundherspringen was ordentlich Zeit kostet, also das klingt für mich schon nach einem Flaschenhals im Design.

Wildcard · 24. Okt 2009

Sehe ich genauso 24 gleichzeitige IO Operationen bremsen sich nur gegenseitig aus. IO sollte in deinem Fall eher Single Threaded erfolgen. Je nachdem wie aufwändig die Verarbeitung der Daten ist kannst du diesen Teil evtl. in einen Worker Thread auslagern der vom IO Thread mit Daten gefüttert wird

Meldanor · 24. Okt 2009

Kommt darauf an, was für eine Festplatte er hat.
Wenn er eine dieser neuen hat(kom gerade nicht auf den Namen , diese Flashbasierenden), dann kann er die 25 Locker auf einmal auslesen.

madboy · 24. Okt 2009

Bei dem Vergleich von verschiedenen Lösungen solltest du aufpassen, dass das Caching vom Betriebssystem dir nicht in die Quere kommt. Startest du Programm 1 und danach gleich Programm 2 werden evtl. Daten aus diversen Caches gelesen und das verfälscht dann das Ergebnis.
Schön zu sehen, wenn folgendes zwei Mal hintereinander ausgeführt wird:
[c]time find XY > /dev/null[/c] mit XY = Verzeichnis mit vielen Dateien.

jason · 24. Okt 2009

@Meldanor: Meinst du SSDs?
Ich denke nicht, dass er diese in einem Hochleistungsrechner verbaut hat, aber theoretisch hast du recht.

MfG jason

Unregistriert · 24. Okt 2009

Die Festplatte ist ein groesseres RAID-System mit mehreren Platten, die sollte 24 parallele Zugriffe aushalten. Ich habs jetzt aber versuchsweise mal mit nur 12 Threads gestartet, danke fuer den Hinweis.
Trotzdem waer ich noch ein einer performanten Java-Implementierung interessiert

(sollte fuer jemanden mit Java-Erfahrung kein grosses Ding sein, das Perl-skript hab ich in einer halben Stunde runtergehackt obwohl ich seit Ewigkeiten kein Perl mehr geschrieben hab).

	Titel	Forum	Antworten	Datum
C	Performance Vergleich, Java vs. Tcl/Tk	Allgemeine Java-Themen	3	8. Apr 2004
R	Java Performance testen	Allgemeine Java-Themen	18	23. Jul 2012
	Java Performance Fragen	Allgemeine Java-Themen	5	2. Jun 2012
	[Groovy/Grails](oder auch java) Mögliche Performance Probleme bei Mailversendung	Allgemeine Java-Themen	2	18. Mai 2011
J	Java Performance nicht nachvollziehbar	Allgemeine Java-Themen	3	16. Nov 2010
J	Performance von Java GUI-Anwendungen	Allgemeine Java-Themen	2	13. Nov 2009
	Performance Problem durch mehrfaches Starten eines JAVA Prog	Allgemeine Java-Themen	8	11. Aug 2008
L	Java Performance Check Tool	Allgemeine Java-Themen	3	12. Feb 2008
X	Java Performance auf Sun Systemen bzw. generell	Allgemeine Java-Themen	4	10. Dez 2007
M	Performance: Java zu C/C++ bei Datenbankanwendung	Allgemeine Java-Themen	3	27. Nov 2006
	Java Deployment Vaadin	Allgemeine Java-Themen	3	Dienstag um 06:40
D	Hat Java eine Library um JavaScript auszuwerten?	Allgemeine Java-Themen	2	29. Feb 2024
	Wieso sind eigentlich JUnit-Tests in src/test/java platziert - nur Konvention?	Allgemeine Java-Themen	7	11. Feb 2024
N	LlaMA, KI, java-llama.cpp	Allgemeine Java-Themen	39	26. Dez 2023
V	Java-Codierungsherausforderung: Navigieren durch die Macken der Datumsmanipulation	Allgemeine Java-Themen	2	28. Nov 2023
E	Output Fehler (Java-Programm Kuchen)	Allgemeine Java-Themen	11	4. Nov 2023
M	java: unexpected type	Allgemeine Java-Themen	2	2. Nov 2023
	Java Input/Output Tests Junit	Allgemeine Java-Themen	3	22. Okt 2023
B	Java Discord bot auf ein Root Server?	Allgemeine Java-Themen	1	21. Okt 2023
	Java PKIX path building failed as non Admin	Allgemeine Java-Themen	15	17. Okt 2023
D	Linux, Java-Version wird nicht erkannt bzw. welche Einstellung fehlt noch?	Allgemeine Java-Themen	19	11. Okt 2023
	Java 21 Release	Allgemeine Java-Themen	5	19. Sep 2023
V	Umgang mit fehlenden Daten in einer Java-Datenanalyseanwendung	Allgemeine Java-Themen	5	15. Sep 2023
P	Fehler: Hauptklasse Main konnte nicht gefunden oder geladen werden Ursache: java.lang.ClassNotFoundException: Main	Allgemeine Java-Themen	24	13. Sep 2023
K	Java Anwendung machen Anleitung	Allgemeine Java-Themen	5	8. Sep 2023
G	java.io.listFiles()	Allgemeine Java-Themen	3	16. Aug 2023
	Frage zu Java Streams min / max	Allgemeine Java-Themen	17	16. Aug 2023
S	Java Programm lässt sich vom USB-Stick starten, aber nicht von HDD	Allgemeine Java-Themen	16	31. Jul 2023
K	Java-Projekt	Allgemeine Java-Themen	11	9. Jul 2023
K	Java-Projekt	Allgemeine Java-Themen	0	9. Jul 2023
	Welcher Browser unterstützt heutzutage noch Java Applets?	Allgemeine Java-Themen	5	23. Jun 2023
	Java-Klasse im extra cmd-Fenster ausführen	Allgemeine Java-Themen	3	31. Mai 2023
	Java Threads	Allgemeine Java-Themen	4	9. Mai 2023
G	java.io.listFiles()	Allgemeine Java-Themen	2	4. Mai 2023
N	Java Dynamic Proxy	Allgemeine Java-Themen	3	10. Apr 2023
N	Leichte Java Gegner Ki	Allgemeine Java-Themen	10	3. Apr 2023
A	Java modul Problem	Allgemeine Java-Themen	4	21. Mrz 2023
	Java Jar datei erstellen, von Projekt, dass auch Javafx Dateien, FXML Dateien und CSS Dateien, sowie Bilder enthält?	Allgemeine Java-Themen	14	21. Mrz 2023
V	Funktionale Schnittstelle in Java	Allgemeine Java-Themen	3	13. Mrz 2023
	Java String in Hashmap als Key NULL	Allgemeine Java-Themen	27	8. Mrz 2023
	Exception in thread "main" java.lang.Error: Unresolved compilation problem:	Allgemeine Java-Themen	7	6. Mrz 2023
	Wenn ich bei Intelij javafx mit maven importieren will, muss ich das in die pom.xml reintun, aber warum noch in module-info.java?	Allgemeine Java-Themen	3	25. Feb 2023
	Java 20 am 21. März	Allgemeine Java-Themen	1	24. Feb 2023
O	Java Website Stock Bot	Allgemeine Java-Themen	3	24. Feb 2023
J	Front-/Backend in Java	Allgemeine Java-Themen	14	10. Feb 2023
	JAVA Google Webcrawler	Allgemeine Java-Themen	1	29. Jan 2023
J	JavaScript innerhalb eines Java Projekts ausführen	Allgemeine Java-Themen	2	26. Jan 2023
A	Java Programm erstellen hilfe	Allgemeine Java-Themen	10	20. Jan 2023
G	java.lang.NoClassDefFoundError: org/aspectj/lang/Signature	Allgemeine Java-Themen	2	19. Jan 2023
	Java Aktienkurse nachfragen	Allgemeine Java-Themen	4	19. Jan 2023
J	Class to link Java	Allgemeine Java-Themen	4	18. Jan 2023
V	Wie funktioniert das Schlüsselwort "final" von Java?	Allgemeine Java-Themen	19	18. Jan 2023
	Inferenz JAVA	Allgemeine Java-Themen	6	15. Jan 2023
U	URI Rechner (Java Script)	Allgemeine Java-Themen	7	5. Jan 2023
	Java Geburtsdatum Textfeld	Allgemeine Java-Themen	7	30. Dez 2022
	Java 19 JavaDocs: Browserintegration	Allgemeine Java-Themen	0	19. Dez 2022
	Gleichzeitiges Ausführen und verbinden von 2 Java-Klassen über die Eingabeaufforderung und Eclipse	Allgemeine Java-Themen	21	5. Dez 2022
H	Java Rechner Programmierung der Mathematik	Allgemeine Java-Themen	33	1. Dez 2022
	Java Kara Auf einen Java Host laufen lassen	Allgemeine Java-Themen	17	29. Nov 2022
C	Fußnoten von DocX mit Java	Allgemeine Java-Themen	2	27. Nov 2022
C	Fußnoten in DocX mit Java	Allgemeine Java-Themen	1	27. Nov 2022
M	Aussagenlogik in Java Programmieren	Allgemeine Java-Themen	22	18. Nov 2022
B	Per Java Word Dokument schreiben?	Allgemeine Java-Themen	8	10. Nov 2022
	Java-Bibliothek für ONVIF	Allgemeine Java-Themen	1	9. Nov 2022
	Oracle übergibt (Java Teile der) GraalVM Community Edition an OpenJDK Community	Allgemeine Java-Themen	2	26. Okt 2022
	Brauche Hilfe - Java Projekt kann nicht erstellt werden	Allgemeine Java-Themen	12	25. Okt 2022
B	Java mit command line und jars benutzen?	Allgemeine Java-Themen	18	22. Okt 2022
M	Java Überprüfen ob .exe-Datei bereits ausgeführt wird	Allgemeine Java-Themen	2	19. Okt 2022
B	HTTP Allgemeine Fragen über Suchmaschine nutzen mit Java	Allgemeine Java-Themen	20	16. Okt 2022
	Wie kriege ich die Fehlermeldung "java: symbol lookup error: ..." weg?	Allgemeine Java-Themen	11	13. Okt 2022
K	Nachhilfe Java	Allgemeine Java-Themen	11	11. Okt 2022
	Java 19	Allgemeine Java-Themen	11	19. Sep 2022
F	IDEA IntelliJ Java Songliste erstellen	Allgemeine Java-Themen	6	15. Sep 2022
	Java bestimmtes Array auf den Wert 0 setzen	Allgemeine Java-Themen	32	19. Aug 2022
B	Java Reflection Probleme beim wehcselseitigen Referenzieren zweier Klassen/Objekte	Allgemeine Java-Themen	14	23. Jul 2022
	Sind alle Methoden in Java implizit virtuell	Allgemeine Java-Themen	2	6. Jul 2022
E	Java und integrierte Grafikkarten	Allgemeine Java-Themen	18	5. Jul 2022
	Wie wird die Typumwandlung bei Mehrfachvererbung in Java implementiert?	Allgemeine Java-Themen	3	4. Jul 2022
	Hilfe bei Java gesucht	Allgemeine Java-Themen	3	28. Jun 2022
A	Java unter Win 10	Allgemeine Java-Themen	1	11. Jun 2022
B	Woher kommen die Bildschirmkoordinaten beim java Robot?	Allgemeine Java-Themen	14	10. Jun 2022
	java.Lang Klassen fehlen in JRE System Library	Allgemeine Java-Themen	1	7. Jun 2022
T	Java Robot Class - Bot	Allgemeine Java-Themen	3	2. Jun 2022
E	Wie Java Heap Space vergrößern?	Allgemeine Java-Themen	3	26. Mai 2022
B	Java Programm auf virutellem Desktop laufen lassen?	Allgemeine Java-Themen	1	21. Mai 2022
D	VBA Code mit Java ausführen möglich?	Allgemeine Java-Themen	10	9. Mai 2022
	Threads, wie genau läuft das in Java ab? (Ich kann Threads erstellen und nutzen, nur das Verständnis)	Allgemeine Java-Themen	6	28. Apr 2022
	Java Home Pfad unabhängig von der Version	Allgemeine Java-Themen	7	25. Apr 2022
N	JAVA-Code mit Grafikfenster zeichnet in Windows, aber nicht Mac.	Allgemeine Java-Themen	4	24. Apr 2022
L	Java überprüfen lassen, ob sich ein gegebener Pfad / das Programm an sich auf einer CD oder Festplatte befindet	Allgemeine Java-Themen	14	21. Apr 2022
	CVE-2022-21449: Fehler in Java bei Signaturprüfung	Allgemeine Java-Themen	20	21. Apr 2022
	Java sql	Allgemeine Java-Themen	15	7. Apr 2022
	Unverständlicher Java code?	Allgemeine Java-Themen	21	4. Apr 2022
	XSD To Java - Überschreiben von Assoziationen	Allgemeine Java-Themen	1	30. Mrz 2022
	Comparisons and Swapa in Bubble-sort Java	Allgemeine Java-Themen	6	17. Mrz 2022
	Java 18	Allgemeine Java-Themen	8	10. Mrz 2022
N	Statistische Auswertung von Logfiles (Einlesen, auswerten und grafische Aufbereitung von logfiles) mit Java	Allgemeine Java-Themen	9	7. Mrz 2022
	Fragen aus einer Java Klausur	Allgemeine Java-Themen	67	1. Mrz 2022
Z	Mit Java 8+ Streams Zeilen nummern zu Zeilen hinzufügen	Allgemeine Java-Themen	17	10. Feb 2022
M	Verständnisfrage java.util.TimerTask	Allgemeine Java-Themen	2	2. Feb 2022

Java Performance im Vergleich zu C++ in speziellem Anwendungsfall

Unregistriert

Gast

ice-breaker

Top Contributor

Wildcard

Top Contributor

Meldanor

Bekanntes Mitglied

madboy

Top Contributor

jason

Mitglied

Unregistriert

Gast

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen