String mit Wörterbuch vergleichen

dict · 3. Okt 2011

Ich habe viele Strings ohne Leerzeichen, in denen ein Wort enthalten sein kann, nun möchte ich diese herausfiltern, die ein deutsches Wort enthalten.
Dazu habe ich mir ein Wörterbuch mit 300 000 Einträgen als .txt runtergeladen und in ein Array eingelesen und bin wie unten zu sehen vorgegangen, doch dauert diese Methode relativ lang ( ca. 1 Sekunde ), das ist bei mehreren 1000 Strings zu viel.
Ich nehme von jedem Wort die z.B. ersten 4 Buchstaben und lasse diese suchen, wenn nicht gefunden, dann die nächsten 4 Buchstaben usw., weil es ja keine Leerzeichen gibt und die Länge unbekannt ist.

Mir fällt aber auch keine effizientere Methode ein, wenn ihr einen Link oder irgendwelche Vorschläge habt, wäre ich sehr erfreut, programmieren noch nicht so lange und bei bspw. Office geht die Rechtschreibprüfung auch sehr schnell voran.

Java:

dict( String output, String[] dictionary, byte minLength )
  {
  String word; //aktuelles Wort
  while( output.length() >= minLength //solange Gesamtstring größer ist als die Mindestwortlänge)
   {
     word = output.substring( 0, minLength ); 
           Pattern p = Pattern.compile(word);
     for( int i = 0; i < dictionary.length; i++ ) //alle Wörterbucheinträge werden durchlaufen
     {
      Matcher m = p.matcher(dictionary[i]);

       if( m.find() )
       {
        return true;
       }
     }
     output = output.substring( 1 );
   }
   return false;

  }

XHelp · 3. Okt 2011

Mit RegEx einen String durchzusuchen ergibt kein Sinn, es gibt effizientere Verfahren: Shift-OR, Boyer-Moore+Modifikationen etc.
Ansonsten kannst du diese Aufgabe auch schön parallelisieren, was die bestimmt eine Effizienzsteigerung bringt.

dict · 3. Okt 2011

Die Algorithmen werde ich mir anschauen, wird wohl etwas dauern.

Mit was für einer Steigerung kann ich ungefähr rechnen bei den Algorithmen?

XHelp · 3. Okt 2011

Öhm... k.a., ich kann mir vorstellen, dass diese RegEx-Suche auf O(n*m) hinausläuft, die oben genannten Algos müssten in O(n) sein. Und dazu kommt noch parallele Abarbeitung.
Aber ich würde an deiner Stelle nicht jedes möglich Wort im Wörterbuch suchen, sondern Wörter aus dem Wörterbuch in der gesamten Zeichenkette suchen.

faetzminator · 3. Okt 2011

Ich kenn da eine Datenstruktur, aber mir fällt der Name gerade nicht ein. Man erstellt einen Baum, bei welchem jeder Knoten ein Zeichen ist. So hätte man bei den Wörtern [c]Aas[/c], [c]Aal[/c] und [c]Abend[/c] etwa folgende Struktur:

Code:

A
|- a
   |- l
   *- s
*- b
   *- e
      *- n
         *- d

Das Ergebnis ist, dass man pro Wort im Input nur ein Mal durch den Baum laufen muss.

XHelp · 3. Okt 2011

Hat was von Patricia-Trie ? Wikipedia oder generell ein Präfixbaum

faetzminator · 3. Okt 2011

Ah ja, ich meinte den "normalen" Trie ? Wikipedia, danke

XHelp · 4. Okt 2011

Der Trick ist eben auch nicht nach Buchstaben zu trennen, sondern nach dem Präfix. In deinem Beispiel würde also "bend" in einem Blatt landen. Wenn später das Wort "Aber" rein soll, dann wird eben nach dem "be" aufgesplittet und dann hast du A>be>r und A>be>nd

dict · 12. Okt 2011

Habe mir folgendes zu BoyerMoore runtergeladen und ausprobiert:
Boyer 1.5 - Fast string search (indexOf) using the Boyer-Moore algorithm. - SharewarePlaza

Ist aber eher langsamer als schneller, habe schon verschiedene probiert.

dict · 13. Okt 2011

Diese Algorithmen eignen sich wohl eher für lange Strings ( > 1000 Zeichen ), was bei mir aber nicht der Fall ist, das Muster ist vielleicht durchschnittlich 8 Zeichen und der String, in dem gesucht werden soll zwischen 20 und 40 Zeichen.
Gibt es da was anderes, nutze jetzt übrigens, wie vorgeschlagen, die Möglichkeit die Wörterbucheinträge im String zu suchen.

XHelp · 13. Okt 2011

Bei der Größe wirst du nicht vernünftig optimieren können. Da wird die Vorverarbeitung ggf Länger als

Code:

indexOf

dauern. Du könntest aber vlt deine ganzen String zu einem zusammenschmeißen oder so.

kay73 · 14. Okt 2011

- Wo hast Du denn das *.txt file her?

- Um Dein Problem zu verstehen:
Dein Dictionary kann so aussehen:
HAUS
BAUM
AUTO

Dein Text so:
THE AUTO CRASHES IN THE BAUM

Dein Algorithmus soll die Liste [AUTO,BAUM] liefern? Oder ist das Problem wirklich allgemeiner, wie z.b ABCDBAUMXYZ?

- Willst Du auch Flexion erkennen? Z. B. wenn im Text der Genitiv "BAUMES" vorkommt, soll dann auch "BAUM" im Woerterbuch gefunden werden? Dann wird's computer-linguistisch mit Lemmatisierung usw...

XHelp · 14. Okt 2011

Lemmatisierung oder selbst Stemming ist für die deutsche Sprache ziemlich schwer. Und mit "ziemlich schwer" meine ich: es gibt nichts vernünftiges, was man benutzen könnte. Deutsch ist eine stark flektierende Sprache, deswegen fallen die Standardalgorithmen raus. Und auch die zusammengesetzten Wörter sollten nicht unterschätzt werden. Snawball könnte man da neben, aber das hat eben eine große Fehlerquote.
Da lohnt es sich eher ein ziemlich großes Wörterbuch zu nehmen (wordnet oder so).

	Titel	Forum	Antworten	Datum
C	EML Email Text in String wandeln	Allgemeine Java-Themen	11	25. Apr 2024
	Java String in Hashmap als Key NULL	Allgemeine Java-Themen	27	8. Mrz 2023
	Datentypen Berechneten String-Wert in Double umwandeln um weiter zu rechnen	Allgemeine Java-Themen	7	7. Dez 2022
M	String	Allgemeine Java-Themen	10	25. Nov 2022
M	Suche nach String mit unbekannten characters	Allgemeine Java-Themen	53	20. Nov 2022
	String kann nicht zu Pfad konvertiert werden	Allgemeine Java-Themen	16	5. Nov 2022
	Einzelne Zeile aus einer txt Datei in einem String speichern	Allgemeine Java-Themen	12	30. Mai 2022
E	Objekte in einen String packen und wieder laden	Allgemeine Java-Themen	5	29. Jan 2022
M	Map<String,String>funktioniert nicht richtig	Allgemeine Java-Themen	4	26. Jan 2022
O	String in Long Hexerdezimal umwandel	Allgemeine Java-Themen	14	26. Nov 2021
N	String vergleichen.	Allgemeine Java-Themen	27	18. Nov 2021
P	String.replace() funktioniert nicht?	Allgemeine Java-Themen	3	18. Okt 2021
	Arbeitet String.split falsch?	Allgemeine Java-Themen	4	16. Okt 2021
M	Switches ohne String	Allgemeine Java-Themen	18	30. Aug 2021
	String Iteration	Allgemeine Java-Themen	5	25. Jul 2021
S	Shuffle String aus if-clause	Allgemeine Java-Themen	11	4. Jul 2021
	Variablen Ist String = "" + int inordnung?	Allgemeine Java-Themen	6	30. Mai 2021
M	Map <Long, String> zu Map<String, Long>	Allgemeine Java-Themen	9	12. Mai 2021
I	String Encoding Verständnisproblem	Allgemeine Java-Themen	22	7. Mai 2021
N	Prüfen, ob ein String 2x das selbe Zeichen hat	Allgemeine Java-Themen	10	30. Apr 2021
	Bug Fixen von String-spliten	Allgemeine Java-Themen	8	10. Mrz 2021
	String List nach Zahlen und Worten sortieren	Allgemeine Java-Themen	9	24. Jan 2021
	Alle mehrfach vorkommenden Buchstaben rekursiv aus einem String entfernen.	Allgemeine Java-Themen	6	13. Jan 2021
	String - Aufteilung und Nutzung einzelner Chars	Allgemeine Java-Themen	7	9. Jan 2021
O	Formatierte String ausgabe bei vier Variablen in einer Zeile	Allgemeine Java-Themen	1	15. Dez 2020
S	String umbenennen: wie?	Allgemeine Java-Themen	4	11. Nov 2020
	String Format Fehler	Allgemeine Java-Themen	2	8. Nov 2020
S	ISO 8601 -> getter / setter String	Allgemeine Java-Themen	3	30. Okt 2020
L	String zu repräsentativen Wert	Allgemeine Java-Themen	0	13. Aug 2020
H	Array mit dem Datentype String[] initializieren	Allgemeine Java-Themen	7	23. Jul 2020
L	ArrayList mit String Arrays in ein Array umwandeln	Allgemeine Java-Themen	1	23. Jul 2020
L	regex ganzer string?	Allgemeine Java-Themen	2	19. Jul 2020
L	Ist ein string ein erlaubter variabel name?	Allgemeine Java-Themen	2	18. Jul 2020
Z	JNA Cpp-DLL String Verwendung	Allgemeine Java-Themen	2	8. Jul 2020
A	String auf Zahlen überprüfen	Allgemeine Java-Themen	5	3. Jun 2020
N	String Array Eingabe	Allgemeine Java-Themen	6	22. Mai 2020
	Datum von String zu LocalDateTime	Allgemeine Java-Themen	8	21. Mai 2020
W	String -> byte[] -> String - Sieht jemand was ich nicht sehe?	Allgemeine Java-Themen	10	17. Mai 2020
R	char aus String entfernen	Allgemeine Java-Themen	10	29. Apr 2020
	Mittels Streams aus Strings A B C den String A, B und C machen	Allgemeine Java-Themen	12	27. Mrz 2020
M	Programm erkennt String aus .txt Datei nicht	Allgemeine Java-Themen	3	20. Mrz 2020
P	einen public <Optinal String> in einer anderen Klasse mit einem Int vergleichen	Allgemeine Java-Themen	2	20. Feb 2020
S	Ini Text aus String parsen	Allgemeine Java-Themen	1	13. Feb 2020
T	String-Manipulation beim Ablauf in Eclipse und als JAR-File	Allgemeine Java-Themen	8	13. Feb 2020
M	String lässt sich nicht Zusammenfügen	Allgemeine Java-Themen	10	11. Feb 2020
	Wie kann ich das Wort "concrete" in einem String durch ein anderes Wort ersetzen lassen?	Allgemeine Java-Themen	5	2. Feb 2020
R	Schlüsselworte "Throw new exception" gibt nicht den String als Fehlermeldung aus	Allgemeine Java-Themen	2	2. Feb 2020
R	Variablen String mit split-Funktion aufteilen	Allgemeine Java-Themen	7	29. Jan 2020
F	Datei in String-Array einlesen	Allgemeine Java-Themen	8	21. Jan 2020
S	Marker aus String ermitteln	Allgemeine Java-Themen	5	9. Jan 2020
T	Objekt mit String und Int aus TxT Datei erstellen	Allgemeine Java-Themen	23	19. Dez 2019
M	Bei String.format ein Komma statt einem Punkt ausgeben lassen	Allgemeine Java-Themen	1	29. Nov 2019
S	MSSQL Exception & Connection String	Allgemeine Java-Themen	19	23. Nov 2019
B	Bei Email: FW / AW... - Hilfe bei String suche	Allgemeine Java-Themen	21	6. Nov 2019
J	String - Vergleiche	Allgemeine Java-Themen	7	17. Okt 2019
K	Aus String zwei Jahreszahlen auslesen	Allgemeine Java-Themen	18	1. Okt 2019
	Wie kann eine vorgegebene Farbe über einen String erkannt werden?	Allgemeine Java-Themen	11	26. Mai 2019
G	CSV in String	Allgemeine Java-Themen	7	12. Apr 2019
P	String-Verschlüsselung - Frage zur Sicherheit	Allgemeine Java-Themen	21	26. Mrz 2019
K	Methodenaufruf mit String / String zu Objekt konvertieren	Allgemeine Java-Themen	8	27. Feb 2019
D	Erste Schritte Fehler mit negativen und 0 Zahlen im String	Allgemeine Java-Themen	6	26. Feb 2019
	Replace x Zeichen aus String	Allgemeine Java-Themen	2	11. Feb 2019
	warum bekomme ich ein string index out of bounds exception	Allgemeine Java-Themen	17	5. Feb 2019
F	In String 2 Buchstaben vertauschen	Allgemeine Java-Themen	2	14. Dez 2018
J	Class Decompile als String (Procyon)	Allgemeine Java-Themen	2	29. Okt 2018
I	Datentypen String in class sicher verwahren	Allgemeine Java-Themen	17	7. Aug 2018
J	Falls der String ein "X" beinhaltet	Allgemeine Java-Themen	2	6. Jul 2018
T	String mehrere Worte	Allgemeine Java-Themen	2	30. Jun 2018
D	String Groß-/Kleinschreibung	Allgemeine Java-Themen	2	6. Jun 2018
D	String und Klassenvariable	Allgemeine Java-Themen	6	15. Mai 2018
	Funktion(y = mx+n) in String speichern und berechnen	Allgemeine Java-Themen	9	12. Mai 2018
C	String in Objektnamen umwandeln	Allgemeine Java-Themen	3	24. Apr 2018
E	Variablen Aus .txt ausgelesener string mit if() überprüfen?	Allgemeine Java-Themen	2	14. Apr 2018
L	String-Schema-Aufspaltung	Allgemeine Java-Themen	2	20. Dez 2017
E	String in Zahl umwandeln, ohne Befehl Integer.parseInt	Allgemeine Java-Themen	3	10. Dez 2017
L	String splitten und multiplizeren	Allgemeine Java-Themen	10	7. Dez 2017
G	String mit umbekannter länge splitten.	Allgemeine Java-Themen	2	2. Dez 2017
S	Einzigartigen String in Datenbank finden und löschen	Allgemeine Java-Themen	23	22. Nov 2017
A	Byte zu String	Allgemeine Java-Themen	4	5. Nov 2017
B	Von String zu <Objekt> \|\|Speichern/Laden	Allgemeine Java-Themen	17	4. Nov 2017
T	Komplexitätsoptimierung String vergleich	Allgemeine Java-Themen	4	11. Okt 2017
	String im JLabel ausgeben und erneuern	Allgemeine Java-Themen	6	9. Okt 2017
S	Input/Output Beste Möglichkeit einen String in einen Datei zu Schreiben	Allgemeine Java-Themen	2	27. Sep 2017
V	Eingegeben String Splitten und in Integer umwandeln	Allgemeine Java-Themen	2	26. Aug 2017
L	Decrypt String	Allgemeine Java-Themen	1	22. Aug 2017
X	Variablen AtmicLong größer als String ?	Allgemeine Java-Themen	4	19. Aug 2017
S	String literal und Referenzvariablen	Allgemeine Java-Themen	6	19. Aug 2017
J	Datentypen Absätze mit String im Word Dokument	Allgemeine Java-Themen	3	29. Jul 2017
D	"Paste" String doppelt	Allgemeine Java-Themen	14	10. Jul 2017
E	String Frage	Allgemeine Java-Themen	9	6. Jul 2017
T	String aus While Schleife für ganze Klasse sichtbar machen	Allgemeine Java-Themen	5	30. Jun 2017
D	JSON to String	Allgemeine Java-Themen	31	19. Jun 2017
M	String automatisch in nächste Zeile umbrechen (Graphics)	Allgemeine Java-Themen	6	15. Jun 2017
U	Methoden Algorithmus MergeSort String [ ] array sortieren programmieren	Allgemeine Java-Themen	17	1. Apr 2017
T	Swing Font String Pixellänge	Allgemeine Java-Themen	1	19. Mrz 2017
G	Substrings in einen String zusammenfassen	Allgemeine Java-Themen	5	20. Feb 2017
	String.replaceAll(...) fehlerhaft?	Allgemeine Java-Themen	3	3. Feb 2017
L	String auf zahlenwert prüfen	Allgemeine Java-Themen	13	3. Jan 2017
U	OOP Warum kann ich aus meiner Methode keinen String auslesen	Allgemeine Java-Themen	4	21. Dez 2016
L	2-Dimensionaler String: Zahlen verschieben	Allgemeine Java-Themen	10	7. Nov 2016

String mit Wörterbuch vergleichen

dict

Gast

XHelp

Top Contributor

dict

Gast

XHelp

Top Contributor

faetzminator

Gesperrter Benutzer

XHelp

Top Contributor

faetzminator

Gesperrter Benutzer

XHelp

Top Contributor

dict

Gast

dict

Gast

XHelp

Top Contributor

kay73

Bekanntes Mitglied

XHelp

Top Contributor

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen