Wortpaare in Texten erkennen

kognitio · 20. Aug 2004

Hallo,
ich möchte aus Texten Wortpaare erkennen und herausschreiben. Also, wenn in einem Text steht "new york", dann soll dies auch als solches erkannt werden.
Bis jetzt habe ich folgende Idee.
Ich gehe durch einen Text hindurch und lese die Wort einzeln in eine TreeMap ein. Danach wird der text wieder eingelesen und jedes wort in der TreeMap wird mit den Worten des Textes verglichen. Wenn er eines findet, dann soll es zusammen mit dem nächsten Wort als "einen" String zusammennehmen und erneut in eine TreeMap einlesen.
Am Ende dann einfach alle "keys" auslesen, deren "values" größer ist als 2 oder 3.
Also im Prinzip, wenn in einem Text steht:" New York has a new opinion about ...", dann soll das Programm, wenn es "new" vergleicht "new york" und "new opinion" als einen String zusammenpacken.
So ist der Plan, aber ich habe Probleme, mit dem zweiten einlesen in die TreeMap, da ich nicht weiß, wie er es finden soll und dann wissen soll, dass er das nächste Wort mit dazu packen soll.
Der Code sieht bis jetzt so aus:

Code:

public class coll
{
        public static void main(String [] args)
                throws Exception
        {
                BufferedReader in = new BufferedReader(new FileReader("test.txt"));
                BufferedWriter raus = new BufferedWriter(new FileWriter("Gesamt.txt"));
                String rein;
                String wort;
                TreeMap zusammen = new TreeMap();
                TreeMap word = new TreeMap();
                while ((rein=in.readLine())!=null)
                {
                        StringTokenizer st = new StringTokenizer(rein);
                        while (st.hasMoreTokens())
                        {
                                wort = st.nextToken();
                                word.put(wort, wort);
                        }
                }


                Set set = word.entrySet();
                for(Iterator iter = set.iterator(); iter.hasNext();)
                {
                        Map.Entry entry = (Map.Entry) iter.next();
                        wort = (String) entry.getKey();
                        {
                                while ((rein=in.readLine())!=null)
                                {
                                        StringTokenizer st = new StringTokenizer(rein);
                                        while (st.hasMoreTokens())
                                        {
                                                String neu;
                                                neu = st.nextToken();
                                                if (wort.matches(neu))              //das hier istr natürlich mehr oder weniger unsinn, aber ich weiß nicht, wie anders...
                                                                                              //hier muss ich die Wort zusammenlegen und erneut einlesen, aber wie...?
                                                {
                                                        raus.write(wort);
                                                        raus.flush();
                                                        raus.newLine();
                                                }
                                        }
                                }               
                        }
                }

        }
}

wenn jemand eine Idee hat, wäre ich dankbar ...
P.S.: Der oben beschriebene Weg fiel mir heute ein, aber vielleicht gibt es auch einen viel geeigneteren Weg, also, wenn jemand einen weiß ...

bygones · 20. Aug 2004

ehrlich gesagt versteh ich nicht ganz was du machen willst...
was soll gezählt werden bzw. was soll zusammengefügt werden ??

kognitio · 20. Aug 2004

was ist denn nicht klar, der code oder die beschreibung was überhaupt geschehen soll?

bygones · 20. Aug 2004

ehrlich gesagt was das Ganze soll ?!

Du speicherst dir alle Wörter die in einem Text vorkeommen in einer Map - was als key, was als value...
danach gehst du nochmal den text durch und suchst für jedes gespeicherte Wort ein Paar - was speicherst du dann und was zählst du ?

kognitio · 20. Aug 2004

ok:
zuerst speichere ich alles in einer Map, um eine Wortliste zu erstellen, da ich danach nur den "key" auslese, habe ich jedes Wort das vorkommt genau "einmal".
danach gehe ich nocheinmal duch den text und (jetzt kommt der teil den ich nicht hinbekomme) lese das erste wort ein und vergleich es mit dem ersten eintrag aus der map. ist der erste eintrag aus der map identlisch mit der der wortliste, wenn ja, nimm das nächste wort dazu (also das zweit) und speichere dieses paar in einer neuen map. danach gehe zum zweiten wort und schau, ob es mit dem ersten eintrag aus der Map identlisch ist, wen ja usw., wenn nein, gehe zum drittem...
das ganze mit einem beispiel
der text:

Code:

new york is happy about the new statue

das erste wort in der treemap ist dann

Code:

about

und dann soll fogendes geschehen:
ist "about" = "new".... nein, also weiter zum nächste:
ist "about" = "york"... nein, usw..... bis
ist "about" = "about", ja, dann speichere in einer neuen Map "about + the" als einen key-eintrag.
dann weiter:
ist "about" = "the" ... nein usw...

ist zwar immer noch ein wenig konfus, aber verständlicher, oder?

dann gehe ich nocheinnmal durch den text und zähle die wortpaare, wie oft sie vorkommen, und schreibe sie heraus, wenn sie öfters, als 2 o. 3 mal vorkommen.
Thats's the idea.

bygones · 20. Aug 2004

ok - verstanden (mit was man sich so alles die zeit vertreiben kann *g*)

als erstes würde ich beim erstenmal keine Map nehmen - du liest jedes Wort ein und speicherst es - ich sehe da keine key - value beziehung...

Ich würde da ein Set nehmen (z.b. HashSet da Ordnung egal ist) - wenn du willst dass jedes Wort nur einmal aufgenommen wird - ansonsten ArrayList z.b.....

Den Text würde ich in einem String halten.

Code:

String text = // les den Text aus der datei (ohne \n !!);
String[] words = text.split(" "); // trenne alle wörter - delimiter ist das leerzeichen
Set wordList = new HashSet(Arrays.asList(words)); // erstelle Set mit den eingelesen wörtern

usw. - mir stellt sich doch die Frage nach dem Sinn. Warum speicherst du nicht gleich alle zweier paare ? also "new york" , "york is", "is happy" usw.

da wenn ich dich richtig verstanden habe du jedes wort des textes einliest und dann wenn dieses Wort gefunden wurde das Nachbar wort mitreinholst....

kognitio · 20. Aug 2004

gute Frage, warum speichere ich nicht gleich alle paare.... oh mann, manchmal sieht man den wald vor lauter bäumen nicht, oder

aber wie mach ich das algorithmisch?

ich lese die worte über den StringTokenizer ein und speichere dann die Worte so ab:

Code:

StringTokenizer stw = new StringTokenizer(meinString);
String paare = stw.nextToken() + " " + stw.nextToken();

aber wenn er dann mit

Code:

while (stw.hasNextToken())

den nächsten Token einliest, dann nimmt er den übernächsten?
also:
"new york has a new statute" speichert er dann doch ab mit

"new york"
"has a"
"new staute"

und ich will das ja so:

"new york"
"york has"
"has a"
"a new"
"new statute"

bygones · 20. Aug 2004

les sie in einen Array ein (entweder per Tokenizer oder per split)
und dann:

Code:

for(int i = 0; i < wordArray.length; i++) {
  if(i < wordArray.length - 1) {
    String wort1 = wordArray[i];
    String wort2 = wordArray[i+1];
    // mach was mit den beiden wörter
  }
}

kognitio · 20. Aug 2004

danke... genau, was ich brauchte

	Titel	Forum	Antworten	Datum
F	Wortpaare - HashMap - ArrayList	Java Basics - Anfänger-Themen	6	9. Jan 2013
M	Input/Output Ein und Ausgabe von Texten	Java Basics - Anfänger-Themen	20	6. Feb 2013
G	Verschlüsselung und Entschlüsselung von Texten	Java Basics - Anfänger-Themen	7	10. Mrz 2011
C	java programm mit Texten, speichern und so	Java Basics - Anfänger-Themen	3	31. Jan 2011
N	Spracherkennung bei Texten	Java Basics - Anfänger-Themen	2	13. Jan 2010
G	Hinzufügen und Entfernen von Zahlen, Texten etc. aus JLists	Java Basics - Anfänger-Themen	6	14. Aug 2007
S	jTextField vergrößert sich bei längeren Texten	Java Basics - Anfänger-Themen	4	11. Mai 2007
T	scanner eingaben erkennen und umtauschen	Java Basics - Anfänger-Themen	4	25. Jan 2023
B	Zusammenhängende Blöcke bei x-gewinnt erkennen?	Java Basics - Anfänger-Themen	14	4. Sep 2022
D	falsche eingabe erkennen	Java Basics - Anfänger-Themen	2	28. Jun 2021
H	Logik Fehler erkennen	Java Basics - Anfänger-Themen	21	17. Apr 2021
1	Wie dieses Muster am einfachsten erkennen?	Java Basics - Anfänger-Themen	32	14. Apr 2021
	Muster erkennen	Java Basics - Anfänger-Themen	13	26. Mrz 2021
U	Muster in einem Array erkennen	Java Basics - Anfänger-Themen	8	4. Dez 2020
N	Eingabe erkennen, ob groß oder kleingeschrieben worden ist	Java Basics - Anfänger-Themen	22	9. Apr 2020
N	palindrom erkennen	Java Basics - Anfänger-Themen	3	30. Mrz 2020
A	Figur erkennen, aber Abweichung falsch	Java Basics - Anfänger-Themen	2	25. Feb 2020
C	Erkennen ob Frame geschlossen wurde	Java Basics - Anfänger-Themen	2	21. Okt 2019
M	Rationale Zahl erkennen - Kurze Frage zum Restwert nach Division	Java Basics - Anfänger-Themen	3	31. Mrz 2019
P	Eigenschaft eines imperativen Algo (Pseudocode) sofort erkennen	Java Basics - Anfänger-Themen	1	29. Dez 2018
G	Verlassen einer ComboBox erkennen	Java Basics - Anfänger-Themen	16	16. Dez 2018
S	Java Großbuchstabe erkennen	Java Basics - Anfänger-Themen	5	20. Nov 2018
D	Wenn ich repaint(); mache, flackert es so stark, das man fast nichts erkennen kann.	Java Basics - Anfänger-Themen	11	26. Mai 2018
B	Unterschiede in einer Liste erkennen	Java Basics - Anfänger-Themen	1	20. Jan 2018
O	String: Befehl und Wert erkennen.	Java Basics - Anfänger-Themen	4	12. Dez 2017
S	Zeilenumbruch mit Scanner erkennen	Java Basics - Anfänger-Themen	9	16. Nov 2017
J	Leerzeichen im Pfad automatisch erkennen	Java Basics - Anfänger-Themen	30	21. Jul 2017
M	Input/Output Zeilenumbrüche erkennen und beibehalten	Java Basics - Anfänger-Themen	4	18. Jun 2017
X	XML-Eintrag an Attribute erkennen	Java Basics - Anfänger-Themen	2	19. Sep 2016
N	Erkennen ob Linkshänder Maus	Java Basics - Anfänger-Themen	4	1. Aug 2016
L	In Javakara Palindrom erkennen.	Java Basics - Anfänger-Themen	9	26. Mai 2016
B	Tastatureingabe erkennen	Java Basics - Anfänger-Themen	8	30. Apr 2016
D	Input/Output Buchstaben als bestimmte Zahl erkennen	Java Basics - Anfänger-Themen	4	18. Sep 2015
F	Blinken oder Dauer ein erkennen	Java Basics - Anfänger-Themen	6	3. Sep 2015
F	Linien und Kurven erkennen	Java Basics - Anfänger-Themen	2	21. Aug 2015
T	Richtigen Wert erkennen	Java Basics - Anfänger-Themen	9	27. Nov 2014
D	Klassenmethode: Befehl erkennen, dann int zurückgeben	Java Basics - Anfänger-Themen	2	3. Nov 2014
S	Laufzeitfehler erkennen	Java Basics - Anfänger-Themen	3	22. Jul 2014
T	Erste Schritte Methoden anwenden und erkennen	Java Basics - Anfänger-Themen	5	10. Mai 2014
D	Erste Schritte Array erkennen	Java Basics - Anfänger-Themen	4	18. Dez 2013
B	Erkennen, wann static oder nicht?	Java Basics - Anfänger-Themen	7	17. Dez 2013
J	Byte Folge erkennen	Java Basics - Anfänger-Themen	5	4. Dez 2013
F	Attribute von Feldinhalten erkennen	Java Basics - Anfänger-Themen	6	24. Jan 2013
N	Erste Schritte Doppelwerte erkennen	Java Basics - Anfänger-Themen	5	20. Jan 2013
H	Schachbrett erkennen	Java Basics - Anfänger-Themen	19	28. Dez 2012
T	Erste Schritte Leerzeile in JAVA erkennen /übergehen	Java Basics - Anfänger-Themen	9	9. Jul 2012
S	Erkennen ob Zahl durch 500Teilbar ist	Java Basics - Anfänger-Themen	21	27. Jun 2012
	StringBuilder Zeilenumbrüche erkennen	Java Basics - Anfänger-Themen	3	10. Jun 2012
H	Datei in kleine Stücke teilen und wieder erkennen	Java Basics - Anfänger-Themen	10	1. Mai 2012
T	Erkennen ob ein Pfad lokal oder im Netzwerk ist	Java Basics - Anfänger-Themen	13	18. Apr 2012
X	String Sonderzeichen/Zahlen erkennen	Java Basics - Anfänger-Themen	3	5. Apr 2012
P	System - Tage erkennen ( System Time ?)	Java Basics - Anfänger-Themen	3	24. Mrz 2012
M	Betriebssystem erkennen?	Java Basics - Anfänger-Themen	12	2. Dez 2011
	Collections Array - erkennen von positionsänderungen	Java Basics - Anfänger-Themen	5	2. Aug 2011
M	Muster erkennen. Idee: Fassade.	Java Basics - Anfänger-Themen	3	15. Jun 2011
M	Java-Prog soll Texte innerhalb Bildern erkennen	Java Basics - Anfänger-Themen	2	9. Mai 2011
S	Leere Datei erkennen	Java Basics - Anfänger-Themen	5	1. Feb 2011
E	ActionListener in anderer Klasse erkennen	Java Basics - Anfänger-Themen	13	5. Jan 2011
	Java-Version (ME, SE) erkennen und darauf reagieren?	Java Basics - Anfänger-Themen	35	3. Jan 2011
E	Position erkennen und überlappungen feststellen	Java Basics - Anfänger-Themen	4	17. Dez 2010
3	Leerzeichen erkennen	Java Basics - Anfänger-Themen	3	24. Nov 2010
A	Gruppen von Namen erkennen	Java Basics - Anfänger-Themen	21	23. Nov 2010
M	In Router einloggen und PCs im Netzwerk erkennen	Java Basics - Anfänger-Themen	18	18. Okt 2010
M	ziffer in zahl erkennen mit boolean	Java Basics - Anfänger-Themen	12	29. Jun 2010
D	Zahl erkennen	Java Basics - Anfänger-Themen	4	18. Jun 2010
T	Image Position erkennen	Java Basics - Anfänger-Themen	6	13. Jun 2010
S	Sonderzeichen in einem String erkennen	Java Basics - Anfänger-Themen	20	2. Apr 2010
S	Filelock erkennen	Java Basics - Anfänger-Themen	6	28. Feb 2010
A	Angeschlossenes Gerät am Com Port erkennen	Java Basics - Anfänger-Themen	4	4. Feb 2010
L	Zeilenwechselsequenz erkennen aus der Datei heraus	Java Basics - Anfänger-Themen	2	5. Jan 2009
S	Erkennen der Eingabe	Java Basics - Anfänger-Themen	13	24. Nov 2008
G	eine straße im kartenspiel erkennen (algorithmus)	Java Basics - Anfänger-Themen	4	21. Jun 2008
G	Bildinformationan auslesen - OCR - Zahlen erkennen	Java Basics - Anfänger-Themen	10	3. Mrz 2008
B	Properties erkennen, auslesen	Java Basics - Anfänger-Themen	7	21. Feb 2008
M	in Textfile Strukturen erkennen	Java Basics - Anfänger-Themen	5	21. Jan 2008
	Teilstring erkennen	Java Basics - Anfänger-Themen	5	22. Jul 2007
L	Laufwerksauswahl / Laufwerke erkennen	Java Basics - Anfänger-Themen	3	26. Apr 2007
B	Threadende erkennen	Java Basics - Anfänger-Themen	6	30. Jan 2007
E	Klassen erkennen in einer Aufgabenstellung	Java Basics - Anfänger-Themen	6	30. Aug 2006
L	path einlesen und erkennen ob es für windows oder linux ist	Java Basics - Anfänger-Themen	8	14. Jun 2006
H	Zeilenanzahl eines Strings erkennen	Java Basics - Anfänger-Themen	2	27. Mrz 2006
S	Umlaute und Sonderzeichen erkennen	Java Basics - Anfänger-Themen	12	2. Nov 2005
C	Erkennen einer gedrückten Taste	Java Basics - Anfänger-Themen	6	10. Sep 2005
S	CD/DVD-Laufwerke erkennen mit Java	Java Basics - Anfänger-Themen	3	1. Jun 2005
R	erkennen von Wortende	Java Basics - Anfänger-Themen	5	4. Dez 2004
N	Veränderungen in JTextArea erkennen	Java Basics - Anfänger-Themen	5	13. Sep 2004
C	Japanische Zeichen erkennen	Java Basics - Anfänger-Themen	5	15. Jul 2004

Wortpaare in Texten erkennen

kognitio

Aktives Mitglied

bygones

Gast

kognitio

Aktives Mitglied

bygones

Gast

kognitio

Aktives Mitglied

bygones

Gast

kognitio

Aktives Mitglied

bygones

Gast

kognitio

Aktives Mitglied

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen