String mit Wörterbuch vergleichen

D

dict

Gast
Ich habe viele Strings ohne Leerzeichen, in denen ein Wort enthalten sein kann, nun möchte ich diese herausfiltern, die ein deutsches Wort enthalten.
Dazu habe ich mir ein Wörterbuch mit 300 000 Einträgen als .txt runtergeladen und in ein Array eingelesen und bin wie unten zu sehen vorgegangen, doch dauert diese Methode relativ lang ( ca. 1 Sekunde ), das ist bei mehreren 1000 Strings zu viel.
Ich nehme von jedem Wort die z.B. ersten 4 Buchstaben und lasse diese suchen, wenn nicht gefunden, dann die nächsten 4 Buchstaben usw., weil es ja keine Leerzeichen gibt und die Länge unbekannt ist.

Mir fällt aber auch keine effizientere Methode ein, wenn ihr einen Link oder irgendwelche Vorschläge habt, wäre ich sehr erfreut, programmieren noch nicht so lange und bei bspw. Office geht die Rechtschreibprüfung auch sehr schnell voran.

Java:
dict( String output, String[] dictionary, byte minLength )
  {
  String word; //aktuelles Wort
  while( output.length() >= minLength //solange Gesamtstring größer ist als die Mindestwortlänge)
   {
     word = output.substring( 0, minLength ); 
           Pattern p = Pattern.compile(word);
     for( int i = 0; i < dictionary.length; i++ ) //alle Wörterbucheinträge werden durchlaufen
     {
      Matcher m = p.matcher(dictionary[i]);

       if( m.find() )
       {
        return true;
       }
     }
     output = output.substring( 1 );
   }
   return false;

  }
 

XHelp

Top Contributor
Mit RegEx einen String durchzusuchen ergibt kein Sinn, es gibt effizientere Verfahren: Shift-OR, Boyer-Moore+Modifikationen etc.
Ansonsten kannst du diese Aufgabe auch schön parallelisieren, was die bestimmt eine Effizienzsteigerung bringt.
 
D

dict

Gast
Die Algorithmen werde ich mir anschauen, wird wohl etwas dauern.

Mit was für einer Steigerung kann ich ungefähr rechnen bei den Algorithmen?
 

XHelp

Top Contributor
Öhm... k.a., ich kann mir vorstellen, dass diese RegEx-Suche auf O(n*m) hinausläuft, die oben genannten Algos müssten in O(n) sein. Und dazu kommt noch parallele Abarbeitung.
Aber ich würde an deiner Stelle nicht jedes möglich Wort im Wörterbuch suchen, sondern Wörter aus dem Wörterbuch in der gesamten Zeichenkette suchen.
 

faetzminator

Gesperrter Benutzer
Ich kenn da eine Datenstruktur, aber mir fällt der Name gerade nicht ein. Man erstellt einen Baum, bei welchem jeder Knoten ein Zeichen ist. So hätte man bei den Wörtern [c]Aas[/c], [c]Aal[/c] und [c]Abend[/c] etwa folgende Struktur:
Code:
A
|- a
   |- l
   *- s
*- b
   *- e
      *- n
         *- d
Das Ergebnis ist, dass man pro Wort im Input nur ein Mal durch den Baum laufen muss.
 

XHelp

Top Contributor
Der Trick ist eben auch nicht nach Buchstaben zu trennen, sondern nach dem Präfix. In deinem Beispiel würde also "bend" in einem Blatt landen. Wenn später das Wort "Aber" rein soll, dann wird eben nach dem "be" aufgesplittet und dann hast du A>be>r und A>be>nd
 
D

dict

Gast
Diese Algorithmen eignen sich wohl eher für lange Strings ( > 1000 Zeichen ), was bei mir aber nicht der Fall ist, das Muster ist vielleicht durchschnittlich 8 Zeichen und der String, in dem gesucht werden soll zwischen 20 und 40 Zeichen.
Gibt es da was anderes, nutze jetzt übrigens, wie vorgeschlagen, die Möglichkeit die Wörterbucheinträge im String zu suchen.
 

XHelp

Top Contributor
Bei der Größe wirst du nicht vernünftig optimieren können. Da wird die Vorverarbeitung ggf Länger als
Code:
indexOf
dauern. Du könntest aber vlt deine ganzen String zu einem zusammenschmeißen oder so.
 

kay73

Bekanntes Mitglied
- Wo hast Du denn das *.txt file her?

- Um Dein Problem zu verstehen:
Dein Dictionary kann so aussehen:
HAUS
BAUM
AUTO

Dein Text so:
THE AUTO CRASHES IN THE BAUM

Dein Algorithmus soll die Liste [AUTO,BAUM] liefern? Oder ist das Problem wirklich allgemeiner, wie z.b ABCDBAUMXYZ?

- Willst Du auch Flexion erkennen? Z. B. wenn im Text der Genitiv "BAUMES" vorkommt, soll dann auch "BAUM" im Woerterbuch gefunden werden? Dann wird's computer-linguistisch mit Lemmatisierung usw...
 
Zuletzt bearbeitet:

XHelp

Top Contributor
Lemmatisierung oder selbst Stemming ist für die deutsche Sprache ziemlich schwer. Und mit "ziemlich schwer" meine ich: es gibt nichts vernünftiges, was man benutzen könnte. Deutsch ist eine stark flektierende Sprache, deswegen fallen die Standardalgorithmen raus. Und auch die zusammengesetzten Wörter sollten nicht unterschätzt werden. Snawball könnte man da neben, aber das hat eben eine große Fehlerquote.
Da lohnt es sich eher ein ziemlich großes Wörterbuch zu nehmen (wordnet oder so).
 
Ähnliche Java Themen
  Titel Forum Antworten Datum
OnDemand Java String in Hashmap als Key NULL Allgemeine Java-Themen 27
JAnruVA Datentypen Berechneten String-Wert in Double umwandeln um weiter zu rechnen Allgemeine Java-Themen 7
M String Allgemeine Java-Themen 10
M Suche nach String mit unbekannten characters Allgemeine Java-Themen 53
kodela String kann nicht zu Pfad konvertiert werden Allgemeine Java-Themen 16
melaniemueller Einzelne Zeile aus einer txt Datei in einem String speichern Allgemeine Java-Themen 12
E Objekte in einen String packen und wieder laden Allgemeine Java-Themen 5
M Map<String,String>funktioniert nicht richtig Allgemeine Java-Themen 4
O String in Long Hexerdezimal umwandel Allgemeine Java-Themen 14
N String vergleichen. Allgemeine Java-Themen 27
P String.replace() funktioniert nicht? Allgemeine Java-Themen 3
SaschaMeyer Arbeitet String.split falsch? Allgemeine Java-Themen 4
M Switches ohne String Allgemeine Java-Themen 18
AmsananKING String Iteration Allgemeine Java-Themen 5
S Shuffle String aus if-clause Allgemeine Java-Themen 11
Besset Variablen Ist String = "" + int inordnung? Allgemeine Java-Themen 6
M Map <Long, String> zu Map<String, Long> Allgemeine Java-Themen 9
S String Encoding Verständnisproblem Allgemeine Java-Themen 22
N Prüfen, ob ein String 2x das selbe Zeichen hat Allgemeine Java-Themen 10
SaftigMelo Bug Fixen von String-spliten Allgemeine Java-Themen 8
Monokuma String List nach Zahlen und Worten sortieren Allgemeine Java-Themen 9
Kingamadeus2000 Alle mehrfach vorkommenden Buchstaben rekursiv aus einem String entfernen. Allgemeine Java-Themen 6
YohnsonM String - Aufteilung und Nutzung einzelner Chars Allgemeine Java-Themen 7
O Formatierte String ausgabe bei vier Variablen in einer Zeile Allgemeine Java-Themen 1
S String umbenennen: wie? Allgemeine Java-Themen 4
x46 String Format Fehler Allgemeine Java-Themen 2
S ISO 8601 -> getter / setter String Allgemeine Java-Themen 3
L String zu repräsentativen Wert Allgemeine Java-Themen 0
H Array mit dem Datentype String[] initializieren Allgemeine Java-Themen 7
L ArrayList mit String Arrays in ein Array umwandeln Allgemeine Java-Themen 1
L regex ganzer string? Allgemeine Java-Themen 2
L Ist ein string ein erlaubter variabel name? Allgemeine Java-Themen 2
Z JNA Cpp-DLL String Verwendung Allgemeine Java-Themen 2
A String auf Zahlen überprüfen Allgemeine Java-Themen 5
N String Array Eingabe Allgemeine Java-Themen 6
MiMa Datum von String zu LocalDateTime Allgemeine Java-Themen 8
W String -> byte[] -> String - Sieht jemand was ich nicht sehe? Allgemeine Java-Themen 10
R char aus String entfernen Allgemeine Java-Themen 10
LimDul Mittels Streams aus Strings A B C den String A, B und C machen Allgemeine Java-Themen 12
M Programm erkennt String aus .txt Datei nicht Allgemeine Java-Themen 3
P einen public <Optinal String> in einer anderen Klasse mit einem Int vergleichen Allgemeine Java-Themen 2
S Ini Text aus String parsen Allgemeine Java-Themen 1
T String-Manipulation beim Ablauf in Eclipse und als JAR-File Allgemeine Java-Themen 8
M String lässt sich nicht Zusammenfügen Allgemeine Java-Themen 10
Drachenbauer Wie kann ich das Wort "concrete" in einem String durch ein anderes Wort ersetzen lassen? Allgemeine Java-Themen 5
R Schlüsselworte "Throw new exception" gibt nicht den String als Fehlermeldung aus Allgemeine Java-Themen 2
R Variablen String mit split-Funktion aufteilen Allgemeine Java-Themen 7
F Datei in String-Array einlesen Allgemeine Java-Themen 8
S Marker aus String ermitteln Allgemeine Java-Themen 5
T Objekt mit String und Int aus TxT Datei erstellen Allgemeine Java-Themen 23
M Bei String.format ein Komma statt einem Punkt ausgeben lassen Allgemeine Java-Themen 1
S MSSQL Exception & Connection String Allgemeine Java-Themen 19
B Bei Email: FW / AW... - Hilfe bei String suche Allgemeine Java-Themen 21
J String - Vergleiche Allgemeine Java-Themen 7
K Aus String zwei Jahreszahlen auslesen Allgemeine Java-Themen 18
Drachenbauer Wie kann eine vorgegebene Farbe über einen String erkannt werden? Allgemeine Java-Themen 11
G CSV in String Allgemeine Java-Themen 7
P String-Verschlüsselung - Frage zur Sicherheit Allgemeine Java-Themen 21
K Methodenaufruf mit String / String zu Objekt konvertieren Allgemeine Java-Themen 8
D Erste Schritte Fehler mit negativen und 0 Zahlen im String Allgemeine Java-Themen 6
Xge Replace x Zeichen aus String Allgemeine Java-Themen 2
coolian warum bekomme ich ein string index out of bounds exception Allgemeine Java-Themen 17
F In String 2 Buchstaben vertauschen Allgemeine Java-Themen 2
J Class Decompile als String (Procyon) Allgemeine Java-Themen 2
I Datentypen String in class sicher verwahren Allgemeine Java-Themen 17
J Falls der String ein "X" beinhaltet Allgemeine Java-Themen 2
T String mehrere Worte Allgemeine Java-Themen 2
D String Groß-/Kleinschreibung Allgemeine Java-Themen 2
D String und Klassenvariable Allgemeine Java-Themen 6
Aruetiise Funktion(y = mx+n) in String speichern und berechnen Allgemeine Java-Themen 9
C String in Objektnamen umwandeln Allgemeine Java-Themen 3
E Variablen Aus .txt ausgelesener string mit if() überprüfen? Allgemeine Java-Themen 2
L String-Schema-Aufspaltung Allgemeine Java-Themen 2
E String in Zahl umwandeln, ohne Befehl Integer.parseInt Allgemeine Java-Themen 3
L String splitten und multiplizeren Allgemeine Java-Themen 10
G String mit umbekannter länge splitten. Allgemeine Java-Themen 2
S Einzigartigen String in Datenbank finden und löschen Allgemeine Java-Themen 23
A Byte zu String Allgemeine Java-Themen 4
B Von String zu <Objekt> ||Speichern/Laden Allgemeine Java-Themen 17
T Komplexitätsoptimierung String vergleich Allgemeine Java-Themen 4
heinz ketchup String im JLabel ausgeben und erneuern Allgemeine Java-Themen 6
S Input/Output Beste Möglichkeit einen String in einen Datei zu Schreiben Allgemeine Java-Themen 2
V Eingegeben String Splitten und in Integer umwandeln Allgemeine Java-Themen 2
L Decrypt String Allgemeine Java-Themen 1
X Variablen AtmicLong größer als String ? Allgemeine Java-Themen 4
S String literal und Referenzvariablen Allgemeine Java-Themen 6
J Datentypen Absätze mit String im Word Dokument Allgemeine Java-Themen 3
D "Paste" String doppelt Allgemeine Java-Themen 14
E String Frage Allgemeine Java-Themen 9
T String aus While Schleife für ganze Klasse sichtbar machen Allgemeine Java-Themen 5
D JSON to String Allgemeine Java-Themen 31
M String automatisch in nächste Zeile umbrechen (Graphics) Allgemeine Java-Themen 6
U Methoden Algorithmus MergeSort String [ ] array sortieren programmieren Allgemeine Java-Themen 17
T Swing Font String Pixellänge Allgemeine Java-Themen 1
G Substrings in einen String zusammenfassen Allgemeine Java-Themen 5
Tommy Nightmare String.replaceAll(...) fehlerhaft? Allgemeine Java-Themen 3
L String auf zahlenwert prüfen Allgemeine Java-Themen 13
U OOP Warum kann ich aus meiner Methode keinen String auslesen Allgemeine Java-Themen 4
L 2-Dimensionaler String: Zahlen verschieben Allgemeine Java-Themen 10
S Variablen String[] Array per schleife in int[] einlesen Allgemeine Java-Themen 8

Ähnliche Java Themen

Neue Themen


Oben