[Kurze Frage] Ähnlichkeit zweier Strings ermitteln

Status
Nicht offen für weitere Antworten.

data89

Bekanntes Mitglied
Hallo,

diesmal nur eine sehr kurze Frage: Wie ermittle ich die Ähnlichkeit zweier Strings (am Besten relativ)? In PHP gibt es diverse Funktionen - nur nicht in Java!

Danke,
data89
 

hdi

Top Contributor
Was heisst für dich ähnlich?

es gibt zB equalsIgnoreCase(), der wertet dann "hAuS" und "Haus" als gleich.
 

data89

Bekanntes Mitglied
@Was heisst für dich ähnlich?

Ich gebe "Tier" und "Tor" ein und erhalte als Ergebnis: Ähnlichkeit 0,xyz (z.B. 0,59645 * 100 = 59,6 %).
 

hdi

Top Contributor
Ja, und ist das jetzt das was Wildcard gepostet hat?
Und wie kommst du auf den Wert (wenn nicht)? War das jetzt nur ein Bsp?

Also was ja zB auch sehr leicht ist ist das ganze anhand der Anzahl von
unterschiedlichen Buchstaben festzulegen:

Tot + Tat = 66,6% gleich (2 von 3 Buchstaben)
Tier + Tot = 25% gleich (1 von 4 Buchstaben)

oder so
 

Wildcard

Top Contributor
Also was ja zB auch sehr leicht ist ist das ganze anhand der Anzahl von
unterschiedlichen Buchstaben festzulegen:
Einfach ist das definitiv nicht. Siehe Link.
Beispiel
Code:
Ich bin zu Hause
Ichbin zu Hause
Nur ein Tippfehler, aber nur die ersten 3 Zeichen sind identisch.
 

hdi

Top Contributor
Okay bei ganzen Sätzen könnte es doof werden. Natürlich kann man Whitespaces ignorieren,
aber das ist ja das gleiche nur andersrum.
Gehen würde es weiterhin irgendwie, aber dann nicht mehr leicht, stimmt.

Aber der Sinn versteckt sich hier bei dem ganzen eh n bisschen finde ich ;)

PS: Ich sage nicht dass der Link kein Sinn macht, das sicherlich.Aber vllt will er ja
speziell nur irgendwas bestimmtes vergleichen, ich wollt ihm nur ne Anregung geben.
 

hdi

Top Contributor
Lies nochmal den von mir zitierten Text in deinem Post durch ;) Ich weiss man freut sich schnell
wenn man's jemandem reinreiben kann, da überliest man oft was ;)
 

hdi

Top Contributor
Ok, bei erneutem Lesen versteh ich ihn auch nicht mehr ;)
Ich dachte da grad an sowas wie:

[Da ist ein toller] "Wasserfall"
und
[Ich hab Angst dass ich in's] "Wasser fall"

Bei White-Space-Ignore würde das als gleich gewertet werden.
Ich dachte mir dass das ja nicht sein sollte. Aber rein vom Aufbau des Strings
wäre es ja wirklich fast das gleiche.

Naja ok, Wildcard 1 : 0 hdi

Insgesamt: Ca. Wildcard 234 : hdi 9 :(
 

noobadix

Bekanntes Mitglied
Hallo!

Als Realisierung der Levenshtein-Distanz habe ich was ausgebrütet, das aber mir zu lange dauert. Eine Wortdatenbank soll auf einen Suchbegriff (pattern) durchsucht werden, sodass Treffer bei z.B. contious - conscious ermittelt werden. Verbesserungsvorschläge?

(Comparing ist eine abstrakte Klasse, die nur zum Implementieren von compare(String s) zwingen soll.)
Java:
class Resemble extends Comparing{
		int difference = 2;
		public boolean compare(String dataBaseEntry){
			dataBaseEntry=dataBaseEntry.trim();
			if(dataBaseEntry.length()-pattern.length()<-1 || dataBaseEntry.length()-pattern.length()>1) return false;
			if(!considerCase)dataBaseEntry = dataBaseEntry.toLowerCase();
			if(dataBaseEntry.contains(pattern) || pattern.contains(dataBaseEntry)) return true;
			return (dropLetters(difference,dataBaseEntry,pattern,false) || dropLetters(difference,pattern,dataBaseEntry,false));
		}
		
		private boolean dropLetters(int count,String pattern, String toDrop, boolean switched){
			String cut;
			char[] oChars = toDrop.toCharArray();
			for(int i=0;i<oChars.length;i++){
				cut="";
				for(int r=0;r<oChars.length;r++){
					if(r!=i)cut+=oChars[r];
				}
				if(pattern.contains(cut)&&pattern.length()-cut.length()<difference)return true;
				else{
					if(count>1 && oChars.length>2 && dropLetters(count-1,pattern,cut,false))return true;
					if(!switched&&count>1&&pattern.length()>1 && dropLetters(count,cut, pattern,true)) return true;
				}
			}
			return false;
		}
	}
 
Zuletzt bearbeitet:
S

SlaterB

Gast
gutes Suchen fängt immer mit Indexen an,

dein Comparing-Code zeigt nicht wie die Aufrufe drumherum aussehen, aber auf String-Länge zu vergleichen scheint ziemlich unnötig,
wird die gesamte Liste vorhandener Wörter durchlaufen und einzeln vergleichen?

nein, du brauchst z.B. einen Index nach Länge,
wenn man einen String mit 25 Buchstaben hat, muss man ihn auch nur mit allen anderen mit 25 Buchstaben vergleichen,
damit dürften 97.5% der Vergleiche (mit allen anderen Wörtern) wegfallen bzw. die Suche beschleunigt sich um den Faktor 25

der Preis des Geschwindigkeitszuwachses ist natürlich immer erhöhter Speicheraufwand für den Index und sonstige Hilfsstrukturen,
auch erhöhter Aufwand beim Speichern, Einfügen in Indexe
 

noobadix

Bekanntes Mitglied
Es ist so, dass ich in einem Vektor diverse Strings aus einem Wörterbuch halte, der auf Treffer durchforstet werden soll. Dazu biete ich verschiedene Suchmethoden wie Suchbegriff gleicht/ähnelt/ist Anagramm des/enthält Wörterbucheintrag(es). Jede Suchmethode ist als Erweiterung der abstrakten Klasse Comparing realisiert, die die Methode compare(String s) entsprechend gestaltet. comparator ist die Referenz auf dieses Comparing-Objekt.
Die Suche geschieht dann einfach mit

Java:
for(String s : words){
   if(comparator.compare(s)) return true;
}

Die Länge der Strings vergleiche ich am anfang der Methode um Zeit zu sparen, denn bei einer Levenshtein-Differenz von 2 kann ein Wort der Länge 3 einem der Länge 25 unmöglich ähneln. Wenn die Längen passen, "schaut sich die Methode den Sachverhalt näher an".

Was Du mit "indexen" meinst verstehe ich nicht. Magst Du das ausführen oder mir Schlagwörter zum googlen geben?

Dankö vorab!
 

hdi

Top Contributor
Was Du mit "indexen" meinst verstehe ich nicht. Magst Du das ausführen oder mir Schlagwörter zum googlen geben?

Er meint Indizes. Plural von Index. Unter Index versteht man (hier) die Position eines Buchstabens innerhalb des Strings. Indizes sind null-basiert, d.h. erster Buchstabe hat Position 0, letzter Buchstabe hat Position string.length - 1. Viele Methoden der Klasse String arbeiten Index-basiert, zB charAt(int index) usw.

Allgemeiner: Ein Index ist die Position innerhalb eines Arrays. Strings sind intern char-Arrays.
 
G

Gast2

Gast
Nein, er meint eher einen Index im Sinne einer Indexstruktur. Also ne spezielle Struktur in der man besonders schnell bestimmte Sachen nachschlagen kann. Wie z.b. das Beispiel mit der Länge des Strings.

Welche Indices in dem Beispiel sinnvoll sind müsste man dann mal analysieren.
 

noobadix

Bekanntes Mitglied
Yo, hdi, das ist so weit klar, nur den Zusammenhang zur Problemstellung konnte ich noch nicht herstellen.
 

hdi

Top Contributor
Nein, er meint eher einen Index im Sinne einer Indexstruktur. Also ne spezielle Struktur in der man besonders schnell bestimmte Sachen nachschlagen kann.

Achso, ok sorry das habe ich dann missverstanden. Also Stichwort Hashing?

Code:
HashMap<Integer, List<String>> // Strings mit Länge <Integer>

edit: Auweia, eine Map mit Integer als Key.. Passiert mir immer wieder mal. Aber 10 Sekunden später fällt mir auf wie dumm das ist.. Also dann einfach List<List<String>>, oder wieso reicht das nicht?
 
Zuletzt bearbeitet:
Status
Nicht offen für weitere Antworten.
Ähnliche Java Themen
  Titel Forum Antworten Datum
P Kurze Frage: aus einer File die Zeilenanzahl auslesen Allgemeine Java-Themen 9
EnHancEd[] kurze enum-Frage Allgemeine Java-Themen 4
M Nur mal eine kurze Frage zum FileOutPutStream Allgemeine Java-Themen 6
S Kurze Frage zu UML! Allgemeine Java-Themen 4
rosima26 Bester Sortieralgorithmus für kurze Arrays Allgemeine Java-Themen 40
x-tshainge Kurze Erklärung Allgemeine Java-Themen 9
B Datentypen JMF: Player LinkedList sinnvoll? ca 30 kurze Sounddateien Allgemeine Java-Themen 3
I Zu kurze AudioClips werden nicht gespielt Allgemeine Java-Themen 3
C Reflection - Kurze Beschreibung? Allgemeine Java-Themen 3
KonradN Mal eine Frage zu Binary Serialization Allgemeine Java-Themen 15
8u3631984 Frage zu Java Streams min / max Allgemeine Java-Themen 17
8u3631984 Frage Performance bei Linked List und Array List Allgemeine Java-Themen 5
H Frage regex greater than less than Allgemeine Java-Themen 7
berserkerdq2 Frage zu IntelliJ und JavaFX Allgemeine Java-Themen 1
W Timer Konzept-Frage Allgemeine Java-Themen 16
T Eine Frage des Designs Allgemeine Java-Themen 2
C Frage zu eigenem TableCellRenderer Allgemeine Java-Themen 11
C Programmvorstellung & Frage zum Thema Geschäftsform Allgemeine Java-Themen 51
J Frage zu System.getproperties. Allgemeine Java-Themen 60
molat100 wie kann man die Frage beantworten Allgemeine Java-Themen 1
pkm Frage zur Präzision von Calendar.WEEK_OF_YEAR Allgemeine Java-Themen 12
J Eine Frage zu den Threads und Task Allgemeine Java-Themen 1
pkm Frage nach eventuellem syntaktischen Zucker bei der Konkatenation von ArrayLists Allgemeine Java-Themen 4
M Frage-Antwortspiel wie Wer wird Millionär Allgemeine Java-Themen 1
F Frage zu System.in Allgemeine Java-Themen 3
marcooooo Frage zum Beispiel im Anhang Allgemeine Java-Themen 16
T Meine Frage lautet wie ich 2 CSV Dateien miteinander in Java verbinde und Spalten die zueinander gehören durch den gleichen Key zusammen ausgebe? Allgemeine Java-Themen 5
S Noch eine Design-Frage zu Setter Allgemeine Java-Themen 6
B For-Loop Frage Allgemeine Java-Themen 21
L Java frage Allgemeine Java-Themen 3
bueseb84 Frage zu Mock und UpperBound Allgemeine Java-Themen 2
M Frage zum Konstruktor Allgemeine Java-Themen 2
W Best Practice Frage zur Umsetzung MVC Allgemeine Java-Themen 9
P String-Verschlüsselung - Frage zur Sicherheit Allgemeine Java-Themen 21
B Frage zu Unit-Tests Allgemeine Java-Themen 6
T Allgemeine Frage: GUI für 3D-Visualisierung Allgemeine Java-Themen 5
R Allgemeine Frage zu RMI bei MVC Allgemeine Java-Themen 2
O Frage zum Runtimeverhalten von Java ... Allgemeine Java-Themen 2
H Rundreise frage (Algorithmus) Allgemeine Java-Themen 18
B Generelle Frage bei einer Webanwendung / Reduzierung von DB Abfragen Allgemeine Java-Themen 1
D Frage zu Vererbung Allgemeine Java-Themen 5
J Frage zu regulärem Ausdruck Allgemeine Java-Themen 2
M Allgemeine Frage: Wie lernt man Java / Programmieren von Grund auf? Allgemeine Java-Themen 7
rentasad Design-Frage - Interfaces, Klassen, statische Methoden Allgemeine Java-Themen 3
S Frage zur JLS Allgemeine Java-Themen 0
J Verständnis Frage zur Instanz, Objekte, Instanzierung, Referenz Allgemeine Java-Themen 14
A Methoden Allgemeine Java Frage Allgemeine Java-Themen 3
E String Frage Allgemeine Java-Themen 9
I bin neu bei GitHub, Frage zur Sicherheit Allgemeine Java-Themen 14
C J2V8 NodeJs Java Bride Problem und Frage!?!? Allgemeine Java-Themen 1
C KeyListener Frage Allgemeine Java-Themen 3
T Frage zu UML in Java programmieren Allgemeine Java-Themen 1
R Konstanten initialisieren - FRAGE Allgemeine Java-Themen 3
MTJ004 FTP Frage zu FTP Speicherung Java-Android-FTP Allgemeine Java-Themen 5
J Frage zum Entwurf / json-Datenmodell Allgemeine Java-Themen 8
A Frage zu meinem Code Allgemeine Java-Themen 2
RalleYTN Classpath Nur ne kleine Frage zur MANIFEST.MF Allgemeine Java-Themen 4
T Frage zu Access Modifiers Allgemeine Java-Themen 6
W Input/Output Frage zu pdfbox und FileUtils Allgemeine Java-Themen 2
O Frage zur Implementierungsweise Allgemeine Java-Themen 4
B Frage zu Bitshift Allgemeine Java-Themen 3
J Java Zufallsgenerator (6 aus 49) Frage Allgemeine Java-Themen 7
L Frage zu RIA und GWT Allgemeine Java-Themen 0
P Concurrency Frage Allgemeine Java-Themen 8
M Frage zu Enumerations Allgemeine Java-Themen 2
F Unlimited Strength Policy. Frage Verbreitung der Anwendung Allgemeine Java-Themen 1
F Frage zur Library JTS Allgemeine Java-Themen 5
S Java Design Frage Allgemeine Java-Themen 10
E Reflection? Frage Allgemeine Java-Themen 4
C FileInputStream frage Allgemeine Java-Themen 6
G Polymorphie Programmdesign Frage Allgemeine Java-Themen 20
Uzi21 Frage zu NetBeans ( Console) Allgemeine Java-Themen 11
D Classpath Frage zum Java Resource Loading Allgemeine Java-Themen 2
G Frage zu JPA Allgemeine Java-Themen 1
S Methoden Frage Allgemeine Java-Themen 2
P MVC - Frage zu Model Allgemeine Java-Themen 4
K Frage zu Locks Allgemeine Java-Themen 1
S Frage zu abstract Allgemeine Java-Themen 5
M ArrayList<String> Frage Allgemeine Java-Themen 7
M OOP Design Frage Allgemeine Java-Themen 2
N Frage zur while-Schleife Allgemeine Java-Themen 18
T Best Practice Auslesen von Zeichenketten (Frage, Antworten, usw) Allgemeine Java-Themen 4
C Eine Frage zur Bearbeitungszeit Allgemeine Java-Themen 8
H Frage wegen Heap-Speicher Allgemeine Java-Themen 2
T Garbage Collection Frage Allgemeine Java-Themen 15
D Frage zu Java und Umlauten / charsets Allgemeine Java-Themen 2
B Frage zu Java und OpenGL? Allgemeine Java-Themen 3
Q Kapselung Allgemeine Design- Frage Allgemeine Java-Themen 8
A eine test thread.join() frage Allgemeine Java-Themen 2
DStrohma LayoutManager Frage zum GridBagLayout Allgemeine Java-Themen 4
F Frage zu Regex möglich Allgemeine Java-Themen 4
H XML-File mit Java erzeugt Frage Allgemeine Java-Themen 10
D Frage und Antwort Programm, Problem bei Methodenaufruf Allgemeine Java-Themen 3
J NetBeans Frage bezüglich der Scanner-Klasse Allgemeine Java-Themen 6
H Java Vector Frage Allgemeine Java-Themen 9
W Frage... Allgemeine Java-Themen 29
R Frage zur topologischen Sortierung Allgemeine Java-Themen 2
H Frage zu weka.core.Instance Allgemeine Java-Themen 3
Y Kleine Frage zu String.split Allgemeine Java-Themen 3
T Frage zu Klassendesing Allgemeine Java-Themen 3

Ähnliche Java Themen

Neue Themen


Oben