Collections Word-Frequenzen zählen

Landei · 27. Dez 2011

Ich habe einmal darüber meditiert, wie man performant die Word-Frequenzen eines Textes ermittelt, wobei aber der aktuelle Stand jederzeit geordnet abrufbar sein soll (ansonsten ist das Problem trivial). Ich bin nur auf ein umständliches Hin und Her mit zwei Maps gekommen. Denke ich hier zu kompliziert?

Java:

public class WordCount {

    private final Map<String, Integer> wordFreq = new HashMap<String, Integer>();
    private final SortedMap<Integer, Set<String>> freqWord = new TreeMap<Integer, Set<String>>();

    public void add(String word) {
        int freq = 1;
        if (wordFreq.containsKey(word)) { //wir müssen den alten Eintrag löschen
            freq = wordFreq.get(word);
            Set<String> set = freqWord.get(freq);
            set.remove(word);
            if(set.isEmpty()) { //Einträge mit leeren Sets vermeiden
                freqWord.remove(freq);
            }
            freq++;
        }
        wordFreq.put(word, freq);
        Set<String> set = freqWord.get(freq);
        if (set == null) { //Eintrag mit neuem Set anlegen
            set = new TreeSet<String>();
            freqWord.put(freq, set);
        }
        set.add(word);
    }

    @Override
    public String toString() {
        StringBuilder sb = new StringBuilder();
        for (Entry<Integer, Set<String>> entry : freqWord.entrySet()) {
            sb.append(entry.getKey()).append(":").append(entry.getValue()).append("\n");
        }
        return sb.toString();
    }

    public static void main(String[] args) {
        WordCount wc = new WordCount();
        wc.add("a");
        wc.add("b");
        wc.add("a");
        wc.add("a");
        wc.add("c");
        System.out.println(wc);
        System.out.println();
        wc.add("d");
        wc.add("d");
        System.out.println(wc);
    }
}

bERt0r · 27. Dez 2011

Du könntest das ganze gleich in einer SortedMap <String, Integer> speichern und der Map einen Comparator geben, der eben aufgrund der Values, nicht der Keys sortiert.
Ob das dann performanter ist als deine zwei Maps kann ich nicht sagen.

Gast2 · 27. Dez 2011

Hm, so eine "geschummelte" Lösung suchst du nicht oder?

Java:

import java.util.ArrayList;
import java.util.Collections;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;

public class WordCount {
	private final Map<String, WordFrequency> wordFrequencies;

	private boolean isSorted = false;
	private List<WordFrequency> sortedWordFrequencies;

	public WordCount() {
		wordFrequencies = new HashMap<String, WordFrequency>();
	}

	public void add(String word) {
		if (!wordFrequencies.containsKey(word)) {
			wordFrequencies.put(word, new WordFrequency(word));
		} else {
			wordFrequencies.get(word).increaseFrequencyByOne();
		}

		isSorted = false;
	}

	@Override
	public String toString() {
		if (!isSorted) {
			sortWordFrequencies();
		}

		StringBuilder sb = new StringBuilder();
		for (WordFrequency wf : sortedWordFrequencies) {
			sb.append(wf.word).append(" : ").append(wf.frequency).append("\n");
		}
		return sb.toString();
	}

	private void sortWordFrequencies() {
		sortedWordFrequencies = new ArrayList<WordFrequency>(
				wordFrequencies.size());

		for (Entry<String, WordFrequency> entry : wordFrequencies.entrySet()) {
			sortedWordFrequencies.add(entry.getValue());
		}

		Collections.sort(sortedWordFrequencies);
		isSorted = true;
	}

	private static class WordFrequency implements Comparable<WordFrequency> {
		private final String word;
		private int frequency;

		public WordFrequency(String word) {
			this.word = word;
			this.frequency = 1;
		}

		public void increaseFrequencyByOne() {
			frequency++;
		}

		@Override
		public int compareTo(WordFrequency o) {
			return o.frequency - frequency;
		}
	}

	public static void main(String[] args) {
		WordCount wc = new WordCount();
		wc.add("a");
		wc.add("b");
		wc.add("a");
		wc.add("a");
		wc.add("c");
		System.out.println(wc);
		System.out.println();
		wc.add("d");
		wc.add("d");
		System.out.println(wc);
	}

}

Landei · 27. Dez 2011

bERt0r hat gesagt.:
Du könntest das ganze gleich in einer SortedMap <String, Integer> speichern und der Map einen Comparator geben, der eben aufgrund der Values, nicht der Keys sortiert.
Ob das dann performanter ist als deine zwei Maps kann ich nicht sagen.

Das nützt aber nichts, wenn sich die Frequenz eines Wortes dauernd ändert.

@EikeB: In der Praxis könnte so ein "gemogeltes" Vorgehen durchaus sinnvoll sein, aber mir geht es eher um die theoretische Frage, wie man mein Vorgaben "datenstrukturtechnisch" umsetzen könnte.

Gast2 · 27. Dez 2011

Wenn sich das Sortierkriterium laufend ändert seh ich so auf die schnelle keinen anderen Weg als die Datensätze jedesmal neu einzuordnen. Das könnte man z.b. mit ner SortedMap lösen, die das neu ordnen für einen erledigt.

EDIT:
Oder nen SortedSet, wär vielleicht ein wenig schlauer

EDIT2:
So vielleicht, auf Anhieb fällt mir da keine schlauere Datenstruktur ein.

Java:

public class WordCount2 {
	private final SortedSet<WordFrequency> wordFrequencies;
	
	public WordCount2() {
		wordFrequencies = new TreeSet<WordFrequency>();
	}
	
	public void add(String word) {
		WordFrequency wordFrequency = getAndRemoveWordFrequency(word);
		
		if (wordFrequency == null) {
			wordFrequency = new WordFrequency(word);
		} else {
			wordFrequency.increaseFrequencyByOne();
		}
		
		wordFrequencies.add(wordFrequency);
	}
	
	private WordFrequency getAndRemoveWordFrequency(String word) {
		Iterator<WordFrequency> iterator =  wordFrequencies.iterator();
		while (iterator.hasNext()) {
			WordFrequency wf = iterator.next();
			if (wf.getWord().equals(word)) {
				iterator.remove();
				return wf;
			}
		}
		
		return null;
	}
	
	@Override
	public String toString() {
		StringBuilder sb = new StringBuilder();
		for (WordFrequency wf : wordFrequencies) {
			sb.append(wf.word).append(" : ").append(wf.frequency).append("\n");
		}
		return sb.toString();
	}
	
	private static class WordFrequency implements Comparable<WordFrequency> {
		private final String word;
		private int frequency;

		public WordFrequency(String word) {
			this.word = word;
			this.frequency = 1;
		}

		public void increaseFrequencyByOne() {
			frequency++;
		}

		public String getWord() {
			return word;
		}

		@Override
		public int compareTo(WordFrequency o) {
			if (o.frequency == frequency) {
				return o.word.compareTo(word);
			} else {
				return o.frequency - frequency;
			}
		}
	}
	
	public static void main(String[] args) {
		WordCount2 wc = new WordCount2();
		wc.add("a");
		wc.add("b");
		wc.add("a");
		wc.add("a");
		wc.add("c");
		System.out.println(wc);
		System.out.println();
		wc.add("d");
		wc.add("d");
		System.out.println(wc);
	}
}

bERt0r · 27. Dez 2011

Landei hat gesagt.:
Das nützt aber nichts, wenn sich die Frequenz eines Wortes dauernd ändert.

@EikeB: In der Praxis könnte so ein "gemogeltes" Vorgehen durchaus sinnvoll sein, aber mir geht es eher um die theoretische Frage, wie man mein Vorgaben "datenstrukturtechnisch" umsetzen könnte.

Genau das gleiche machst du doch auch, nur eben mit einer zweiten Collection, die man bei meinem Ansatz nicht braucht. Wenn sich der Wert erhöht, wird gegebenenfalls gelöscht (bin mir nicht sicher ob es mit einfachem überschreiben richtig sortiert wird) und neu eingefügt. Der Comparator sorgt dafür, dass die Wörter nach der Häufigkeit sortiert, richtig eingefügt werden.

Marco13 · 27. Dez 2011

Ich finde, das ist eigentlich schon eine sehr kompakte und elegante Lösung. Man könnte sich eine Klasse machen, die das wegkapselt und wie eine normale Map aussieht ... oder nimm einfach Scala! :joke: Nee im Ernst: bezieht sich die Frage auf die "Menge des Codes", oder auf das etwas unhandliche Einfügen, weil man die Sortierung nachträglich nicht mehr ändern kann? Um das zu vermeiden bräuchte man irgendeinen Heap, dem man sagen kann: "heap.sortValueChanged(element, newValue)", und der dann die Sortierung auf Basis des neuen Wertes wiederherstellt - aber wenn das effizient sein soll (und man diesen Anspruch an sich selbst hat

) sollte das ein Fibonacci-Heap sein. Den schüttelt man nicht einfach aus dem Ärmel...

tagedieb · 27. Dez 2011

Mich erinnert das Problem an das Bag Interface (von Apache Commons Collections und von Goolgle implementiert) siehe TreeMultiset (Google Collections Library 1.0 (FINAL))

Allerdings hab ich auf anhieb nichs gefunden um die Collection nach Anzahl der Members zu sortieren, aber eventiel laesst dich die Klasse ja erweitern.

	Titel	Forum	Antworten	Datum
B	Per Java Word Dokument schreiben?	Allgemeine Java-Themen	8	10. Nov 2022
E	Ersetzen eines Bildes in der Kopfzeile eines Word-Docx-Dokuments mit Apache POI XWPF	Allgemeine Java-Themen	0	1. Apr 2022
I	Apache POI Bild in Word ersetzen	Allgemeine Java-Themen	15	18. Jun 2020
M	Aus XML ein Word-Dokument(Template) füllen	Allgemeine Java-Themen	8	21. Feb 2020
I	Text suchen und ersetzen im Word Dokument	Allgemeine Java-Themen	3	18. Sep 2018
	float in WORD konvertieren	Allgemeine Java-Themen	1	29. Mrz 2018
J	Datentypen Absätze mit String im Word Dokument	Allgemeine Java-Themen	3	29. Jul 2017
J	Input/Output Word Datei einlesen, verarbeiten und abspeichern	Allgemeine Java-Themen	3	18. Feb 2017
	PDF oder Word als Template benutzen	Allgemeine Java-Themen	1	17. Okt 2016
I	Apache POI Word Text einfügen	Allgemeine Java-Themen	26	30. Jun 2016
D	Symbol in Word-Dokument einfügen	Allgemeine Java-Themen	1	2. Apr 2015
D	OOXML-Schemas (Word / Fußzeile)	Allgemeine Java-Themen	0	30. Dez 2014
K	Apache POI Word Tabelle Zellen verbinden	Allgemeine Java-Themen	4	26. Nov 2014
K	Apache POI Word Tabelle Spaltenbreite festlegen	Allgemeine Java-Themen	7	19. Nov 2014
K	Apache POI Word bestimmte Textstellen bearbeiten	Allgemeine Java-Themen	1	12. Nov 2014
T	Word Java Absatz	Allgemeine Java-Themen	4	26. Jun 2014
R	MS Word in PDF konvertieren	Allgemeine Java-Themen	1	12. Jan 2014
T	Mit Apache Poi Daten aus einer Excel Tabelle kopieren und in Word einfügen	Allgemeine Java-Themen	1	10. Dez 2013
H	Input/Output Microsoft Word aus JAVA Heraus Steuern.	Allgemeine Java-Themen	3	5. Okt 2012
M	Word mit Parameterübergabe	Allgemeine Java-Themen	2	18. Dez 2011
M	Syntax Highlighter für MS Word?	Allgemeine Java-Themen	2	18. Okt 2011
	Mehrere Paragraphe in eine Word Datei schreiben	Allgemeine Java-Themen	4	13. Nov 2010
S	Formatierungen aus HTML-Dokument übernehmen und in Word docx schreiben	Allgemeine Java-Themen	3	8. Sep 2010
S	Automatisierte generierung von "Word"-Dokumenten	Allgemeine Java-Themen	5	27. Aug 2010
K	Word Dokument bearbeiten	Allgemeine Java-Themen	2	8. Mai 2010
	word-Vorlage in java öffnen	Allgemeine Java-Themen	4	6. Okt 2009
	Word Datein bearbeiten	Allgemeine Java-Themen	3	28. Mai 2009
	aus einem Applet auf Word zugreifen	Allgemeine Java-Themen	3	18. Mai 2009
M	Speichern von Word als Event abfangen	Allgemeine Java-Themen	7	11. Sep 2007
F	Plugin damit M$ Word Java syntax versteht?	Allgemeine Java-Themen	12	24. Aug 2007
K	Bilder mit Java in MS Word einfügen	Allgemeine Java-Themen	2	25. Jul 2007
Z	Word/PDF Generierung	Allgemeine Java-Themen	5	30. Apr 2007
S	Java Code in Word	Allgemeine Java-Themen	8	11. Apr 2007
H	Word Dateien erstellen	Allgemeine Java-Themen	2	6. Feb 2007
C	Word Datei /Serienbrief erstellen	Allgemeine Java-Themen	8	11. Jan 2007
P	word zu pdf konvertieren	Allgemeine Java-Themen	5	10. Nov 2006
H	RTF zu Word-Dokument generieren	Allgemeine Java-Themen	5	9. Okt 2006
G	Daten nach Word exportieren	Allgemeine Java-Themen	2	17. Mai 2006
G	Word-Dokument in einem JFrame	Allgemeine Java-Themen	2	11. Apr 2006
D	API für MS-Word	Allgemeine Java-Themen	7	13. Mrz 2006
T	Word, Excel u. Access API	Allgemeine Java-Themen	2	2. Dez 2005
R	Datenübergabe: Java zu MS Word-Vorlage	Allgemeine Java-Themen	6	14. Sep 2005
A	HTML, WORD, EXCEL API	Allgemeine Java-Themen	4	10. Mai 2005
P	free lib: PDF Formulare - Word Formulare	Allgemeine Java-Themen	7	23. Mrz 2005
J	Word Vorlagen öffnen und mit Daten füttern	Allgemeine Java-Themen	2	13. Mrz 2005
L	Serienbrief in word mit übergabewerten?	Allgemeine Java-Themen	9	14. Feb 2005
D	Word, Excel oder sonstige Dateien extern ausführen	Allgemeine Java-Themen	9	14. Nov 2004
S	Word-Dokument in Textarea anzeigen	Allgemeine Java-Themen	2	1. Dez 2003
	Variablen Variablen Zählen	Allgemeine Java-Themen	3	2. Jun 2022
S	Drools: Zählen wie oft ein Wert vorkommt	Allgemeine Java-Themen	1	19. Mai 2020
R	Methoden Was fehlt mir bzw. muss ich bei der Methode countHarshabNumbers ändern damit ich die Harshad Zahlen im Intervall [51, 79] zählen kann?	Allgemeine Java-Themen	19	12. Apr 2020
A	Binärer Suchbaum Knoten Zählen	Allgemeine Java-Themen	4	21. Jul 2019
L	Menge der Buchstaben eines Textes zählen	Allgemeine Java-Themen	3	22. Nov 2015
J	Rekursive Programmierung-Zählen von Ziffern	Allgemeine Java-Themen	5	3. Feb 2015
J	Die Menge einer Zahl im Binärbaum zählen	Allgemeine Java-Themen	7	12. Jan 2015
N	[stream-api] Parameter pro Typ zählen	Allgemeine Java-Themen	1	4. Aug 2014
B	Counting Sort (Sortieren durch Zählen)	Allgemeine Java-Themen	13	24. Jun 2014
K	Wörter in Strings zählen	Allgemeine Java-Themen	7	23. Mrz 2014
D	Fehlgeschlagene Logins zählen... Was ist sinnvoll?	Allgemeine Java-Themen	2	3. Dez 2012
R	Zusammenhängende Werte in 2-dim. Array finden und zählen	Allgemeine Java-Themen	3	10. Jul 2012
C	Kleinbuchstaben zählen	Allgemeine Java-Themen	10	25. Jun 2012
P	Werte in Array zählen und Summe der einzelnen Teile ausgeben	Allgemeine Java-Themen	10	20. Mai 2012
M	Ein bestimmtes Wort in einem Text zählen (String in String)	Allgemeine Java-Themen	9	21. Feb 2012
B	substring zählen	Allgemeine Java-Themen	7	13. Jan 2012
C	Mausklicks zählen (extern)	Allgemeine Java-Themen	6	21. Jul 2011
S	Knoten zählen in einem Binärbaum	Allgemeine Java-Themen	2	3. Mai 2011
S	erzeugte objekte zählen	Allgemeine Java-Themen	3	28. Nov 2009
H	Zeitraum: Arbeitstage zählen	Allgemeine Java-Themen	5	27. Mai 2009
J	String Wörter zählen	Allgemeine Java-Themen	4	9. Mrz 2009
S	Array: Anzahl Elemente mit best. Wert zählen	Allgemeine Java-Themen	4	3. Mrz 2009
M	Anwendung nur einmal starten / Zeichen in String zählen	Allgemeine Java-Themen	7	20. Sep 2008
G	Dateien und Verzeichnisse in einem Verzeichnis zählen	Allgemeine Java-Themen	9	14. Mrz 2008
2	Tage zwischen zwei Datumsdaten zählen	Allgemeine Java-Themen	2	2. Aug 2007
G	Tage zwischen zwei Datumsdaten zählen	Allgemeine Java-Themen	3	2. Aug 2007
G	arguemente einer Methode zählen?	Allgemeine Java-Themen	19	24. Jul 2007
X	Strings aus einer ArrayList zählen	Allgemeine Java-Themen	11	22. Feb 2007
B	Farben Zählen	Allgemeine Java-Themen	17	4. Feb 2007
S	Methode zum Zählen von Buchstaben in Strings gesucht	Allgemeine Java-Themen	11	22. Dez 2006
I	vergleich und zählen von Strings	Allgemeine Java-Themen	7	14. Dez 2006
C	Objekte einer Klasse zählen	Allgemeine Java-Themen	25	27. Nov 2006
T	Zeilen eines Projekts zählen lassen	Allgemeine Java-Themen	14	19. Jun 2006
M	richtiges Ergebnis zählen und übergeben?	Allgemeine Java-Themen	7	9. Apr 2006
F	Dateien in einem Ordner zählen	Allgemeine Java-Themen	15	20. Mrz 2006
G	ziffern zählen mit rekursiver methode	Allgemeine Java-Themen	2	16. Jan 2006
F	Zählen wie oft Methode aufgerufen wurde	Allgemeine Java-Themen	2	17. Nov 2005
L	Häufigkeit der Werte in Datei zählen! Heap Space beschränkt!	Allgemeine Java-Themen	31	6. Sep 2005
F	Bestimmes zeichen im String zählen	Allgemeine Java-Themen	34	5. Sep 2005
G	Dateien zählen im Verzeichnis	Allgemeine Java-Themen	11	5. Aug 2005
B	Integer zählen bzw. speichern	Allgemeine Java-Themen	3	5. Feb 2005
S	lines of code zählen	Allgemeine Java-Themen	9	10. Jan 2005
A	Buchstaben zählen	Allgemeine Java-Themen	5	3. Mrz 2004

Collections Word-Frequenzen zählen

Landei

Top Contributor

bERt0r

Top Contributor

Gast2

Gast

Landei

Top Contributor

Gast2

Gast

bERt0r

Top Contributor

Marco13

Top Contributor

tagedieb

Top Contributor

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen