regulärer Ausdruck: ^ $

diggaa1984 · 10. Okt 2009

hiho,

ich bau mir grad nen Scanner für kontextfreie Grammatiken .. der einigermaßen universal zumindest unterscheiden soll ob es sich um Terminale, Kommentare oder diverse Spezialdaten handelt, welche dynamisch im Scanner eingebracht werden können.

Nach den der Scanner Token nur Anhand von definierten Trennzeichen erkennen kann ergibt sich also das bspw solche Strings enstehen:

1234.5678E-5 .. sowas soll bspw. bei meinem Editor als Float erlaubt sein. Dezimalzahlen sind ebenfalls erlaubt .. und werden nicht als Teil der Grammatik formuliert sondern per Platzhalter eingebunden, sprich eine Regel in der Grammatik könnte so aussehen:

Number = INT | FLOAT

wenn man Dezimalzahlen und Gleitkommazahlen in der Grammatik verwenden möchte.
Diese kann ich selbstverständlich nur mittels regulärer Ausdrücke definieren.

Code:

INT = \\d+
FLOAT = (\\d+\\.\\d+([eE]?[-+]?\\d+)?)

nun passiert im Scanner folgendes: ich splitte den Eingabestring gemäß der Trennzeichen die eingestellt sind, erhalte also zum Beispiel einen Teilstring der Form

Code:

1234.567e+10

Der Scanner prüft nun seine bekannten Daten und kommt nun zu den Dezimalzahlen. Diese matchen 3x auf diesen String. Das ist natürlich verkehrt, denn es handelt sich um eine Gleitkommazahl. Nun habe ich mal folgendes in einem TestApplet für reguläre Ausdrücke probiert:

Code:

^\\d+$

: das würde nicht mehr auf diesen String matchen, die Frage die ich mir Stelle ob das eine sichere Option wäre im Scanner, um den definierten regulären Ausdrücke herum jeweils diese Zeichen zu setzen und dann zu prüfen ob auch wirklich der komplette String als übereinstimmend erkannt wird.

Kann man dabei auf die Nase fallen, wenn man das implizit bei allen regulären Ausdrücken macht, die NICHT zeilenübergreifend sind.
Zeilenübergreifend wäre zB ein Blockkommentar, da würde das natürlich nicht klappen (da der Scanner den Text des Kommentars ja auch per Delimiter trennt)

xorm · 10. Okt 2009

Hm eigentlich würde ich sogar sagen, dass du ^ und $ hinzufügen solltest. Sonst wäre es möglich, dass dir irgendwelche Daten untergeschoben werden, in denen das Muster zwar enthalten ist, drumrum aber noch haufenweise andere Dinges stehen können.
Abhängig davon, wie du mit Leerzeichen umgehst würde dir jedoch noch empfehlen am Anfang und am Ende des regulären Ausdruck eine optionale Zahl von Leerzeichen hinzuzufügen. Sonst wird deine Zahl unter Umständen nicht als Zahl erkannt wenn am Anfang oder am Ende ein Leerzeichen steht.

Das hat jetzt zwar nicht direkt etwas mit deiner Frage zu tun aber unter Umständen solltest du auch daran denken das bei \\d+ auch führende Nullen möglich sind. Abhängig davon, was du mit den Daten machst könnte das eventuell von Bedeutung sein.

pexx · 10. Okt 2009

Hi.

hab auch ma nen lexer gebaut. beim scannen wird sofort der erste akzeptierende DFA (oder in deinem fall regex) genommen. seine priorität (also index in der liste) entscheidet welcher Matcher vorzug bekommt. du müsstest dein FLOAT also einfach vor INT definieren (und den ersten regex der anspringt akzeptieren).

da du den eingabestring aber schon zu beginn an separatoren teilst, könntest du im regex auch ^bla$ nehmen. das würde aber zu problemen führen wenn die sprache so formuliert wird, dass trennzeichen(space,tab,newline?) eine bedeutung bekommen (bsp. python) oder wenn ein freizeichen in nem string auftaucht (überhaupt fand ich das korrekte matchen von strings mit maskier-zeichen und so am schwierigsten).

und mit den zeilenübergreifenden Regeln (ausser strings) solltest du den lexer glaub nicht belasten. das ist schon arbeit des kellerautomaten.

mfg

diggaa1984 · 10. Okt 2009

an diese Reihenfolge des matchens dachte ich auch erst, finde ich aber zu wage, daher kam die Idee mit den ^...$

Es ist zwar möglich diese Annahme anzugeben und es dem Programmierer zu überlassen die richtige Reihenfolge zu beachten, dennoch macht es die Fehlersuche extrem schwierig wenn man dabei schusselt. Ich persönlich kenne ja nun das Programm von der 1. Zeile an, aber wenn später die Leute vom Lehrstuhl mal darin rummehren wollen dann kann sowas schnell mal schief gehen, denke ich.

Da das ganze ja dynamisch funktionieren soll, dachte ich zunächst an die Variante Trennezeichen programmatisch vorzuschreiben und dann noch einmal dynamisch zu testen, welche Trennzeichen explizit in der Grammatik selbst auftauchen als Terminal der Länge >= 2 .. Wichtig hierbei, Trennzeichen können durchaus noch vom Scanner als Token erkannt werden!!

Wenn ich bspw ( und ) als Trennzeichen nutze (im Editor ja durchaus brauchbar) .. dann macht es nix, wenn diese auch alleinstehend in der Grammatik vorkommen, denn sie werden ja dennoch erkannt. Wenn es aber ein Terminal in der Grammatik gibt wie zB:
)? .. dann würde das natürlich mit der Klammer als Trennzeichen schief gehen, das kann ich vorher ohne Probleme erkennen und dann die Klammer als Trennzeichen entfernen.

Die Sache ist eben, das der Editor für alle kontextfreien Grammatiken funktioniert und der Parser, welcher selbigen Scanner nutzt damit die Token erhält. Quasi ein Universalscanner auf oberer Ebene. Er erkennt Terminale, Kommentare, Unbekannte Strings und Wildcards (die sind hard codiert, biser PLACE, INT, FLOAT) je nach aktivierter Grammatik (zur Laufzeit wechselbar).

Der ebenfalls universale Parser (CYK-Algorithmus) müsste sich bei Terminalen noch die entsprechende Regel suchen, bei Unbekannten kann er gleich abbrechen etc.

und mit den zeilenübergreifenden Regeln (ausser strings) solltest du den lexer glaub nicht belasten. das ist schon arbeit des kellerautomaten.

Zeilenübergreifende Regeln? .. nene nur zeilenübergreifende "Terminale" in dem Sinn .. also Blockkommentar wäre soetwas .. da kann ich locker mit bisher 3 States im Scanner auskommen (NONE, SINGLELINE, MULTILINE) .. SingleLine = Zeilenkommentar --- Multiline = Blockkommentar ... eventuell finden sich da mal noch später weitere Anwendungen für, aber das wäre was ich mit dem Editor auch können muss!

pexx · 11. Okt 2009

diggaa1984 hat gesagt.:
nene nur zeilenübergreifende "Terminale" in dem Sinn .. also Blockkommentar wäre soetwas ..

ok an mehrzeilige kommentare hab ich nicht gedacht. das is definitiv aufgabe des scanners

nochma zum eigentlichen problem.. wenn dein splitten nach trennzeichen klappt seh ich keinen grund die Regex-Grenz-Operatoren nich zu verwenden.

aber trotzdem, was ist daran verkehrt die priorität entscheiden zu lassen? ich meine jemand der dein programm nutzt um ne sprache oder ein compiler zu basteln sollte schon wissen was er tut oder

diggaa1984 · 11. Okt 2009

hm das mit den trennzeichen ist vielleicht doch ne dumme idee, wenn ich davon ausgehen darf, das ja beliebige kontextfreie grammatiken gescannt werden müssen .. irgendwas könnte also definitiv schief gehen.

momentan bin ich wieder auf dem dampfer des ... "ich such alles was ab dem 1. Zeichen matcht, und nehme davon den längsten Match sozusagen .. token basteln, string kürzen, wiederholen" ... hier allerdings das problem, das ich meine pattern für kommentare ändern können muss!?

so ein: /* foo */ ... die begrenzer können ja durchaus auch mal teil der grammatik sein ^^

pexx · 13. Okt 2009

ok, dann war das splitten wohl doch nicht sone gute idee.

hab mal meinen source raus gesucht, der funktioniert bis jetzt ganz gut

läuft halt so, dass der offset immer um die anzahl der gefundenen zeichen des akzeptierenden matchers erhöht wird, bis das string-ende erreicht is.

Java:

public void tokenize (String source, int flags) throws LexerException {
	tokens = new ArrayList <Token> ();		
	int sLen = source.length();
	int lexPos = 0, t;				
	...				
	Acceptor e;				
	/*	Acceptor'en sind Objekte, welche einen String, beginnend
		ab einer Startposition, akzeptieren oder eben nicht.
		wenn der akzeptiert gibt der den neuen offset zurück, sonst
		Acceptor.NOT_ACCEPTED */
	
	// lese bis ende (lexPos == sLen-1)
	while (lexPos < sLen) {			
		accepted = false;	
		
		tokenizing:		
		for (int i = 0; i < reader.length; i++) {				
			// durch alle acceptor'en iterieren	
			
			e = reader[i];				
			if ( (t = e.read(source, lexPos)) != Acceptor.NOT_ACCEPTED ) { 
				// akzeptiert		
				
				lexPos = t;
				accepted = true;						
				tokens.add(
					new Token(e.getType(), e.getOutput())
				);						
				break tokenizing;
			} 				
		}			
		... // keiner hat akzeptiert --> exception
	}				
	...
}

public interface Acceptor {
	public static final int NOT_ACCEPTED = -1;

	public int read(String in, int startAt);

	/**
	 * resets dfa
	 */
	public void reset();

	/**
	 * get lexem or generated output
	 * @return output
	 */
	public String getOutput();

	/**
	 * get type of acceptor
	 * @return type
	 */
	public String getType();

}

Die oben verwendeten Acceptor-Objekte hab ich aus didaktischen Gründen als Endliche Automaten oder Mealymachines implementiert. Man könnte aber genauso Regexe benutzen.

Ein Kommentar wäre dann einfach einer dieser Acceptoren, der später (je nach bedarf) aus der resultierenden ArrayList entfernt wird.

hoffe das hilft ein bisschen,
ciao

	Titel	Forum	Antworten	Datum
P	Einfacher regulärer Ausdruck (RegEx) für E-Mail-Adressen	Java Basics - Anfänger-Themen	2	24. Nov 2021
B	Regulärer Ausdruck	Java Basics - Anfänger-Themen	12	9. Aug 2018
D	Regulärer Ausdruck	Java Basics - Anfänger-Themen	8	7. Aug 2017
B	Regulärer Ausdruck	Java Basics - Anfänger-Themen	3	2. Apr 2017
C	Regulärer Ausdruck matched nicht	Java Basics - Anfänger-Themen	2	5. Dez 2012
B	Regulärer Ausdruck gesucht	Java Basics - Anfänger-Themen	6	13. Jan 2012
M	regulärer Ausdruck funktioniert nicht	Java Basics - Anfänger-Themen	6	16. Dez 2011
X	Regulärer Ausdruck für einen FileNameFilter	Java Basics - Anfänger-Themen	2	30. Jul 2011
S	regulärer Ausdruck HTML	Java Basics - Anfänger-Themen	5	26. Mai 2011
	Ein regulärer Ausdruck für HTML-Sonderzeichen	Java Basics - Anfänger-Themen	3	4. Apr 2011
B	regulärer Ausdruck mit Metazeichen	Java Basics - Anfänger-Themen	4	25. Mai 2010
F	Regulärer Ausdruck warum false ?	Java Basics - Anfänger-Themen	3	3. Okt 2009
O	Regulärer Ausdruck gesucht	Java Basics - Anfänger-Themen	2	6. Aug 2009
S	Regulärer Ausdruck - alles was keine Zahl ist entfernen	Java Basics - Anfänger-Themen	2	10. Jun 2009
S	regulärer ausdruck zum zählen eines wortes	Java Basics - Anfänger-Themen	4	18. Mai 2009
K	Regulärer Ausdruck	Java Basics - Anfänger-Themen	7	9. Mrz 2009
L	Regulärer Ausdruck	Java Basics - Anfänger-Themen	2	18. Sep 2008
M	regulärer Ausdruck	Java Basics - Anfänger-Themen	3	13. Mai 2008
X	Regulärer Ausdruck	Java Basics - Anfänger-Themen	6	11. Jun 2007
E	regulärer Ausdruck -> wo ist der Fehler	Java Basics - Anfänger-Themen	9	8. Mai 2007
G	regulärer Ausdruck alles was zwischen ' ' steht	Java Basics - Anfänger-Themen	4	11. Apr 2007
P	Zeile als regulärer Ausdruck	Java Basics - Anfänger-Themen	5	29. Mrz 2007
G	Regulärer Ausdruck: gefunden und gleichzeitig nicht gefunden	Java Basics - Anfänger-Themen	5	8. Mrz 2007
M	regulärer Ausdruck zum Parsen einer E-Mail Signatur	Java Basics - Anfänger-Themen	16	23. Jun 2005
T	Regulärer Ausdruck	Java Basics - Anfänger-Themen	4	7. Mrz 2005
G	regulärer ausdruck zur überprüfung von ip-adresse?	Java Basics - Anfänger-Themen	13	6. Dez 2004
T	Regulärer Ausruck mit replace	Java Basics - Anfänger-Themen	3	21. Jan 2010
W	Suche nach strings zwischen eckigen Klammern mittels regulärer Ausdrücke	Java Basics - Anfänger-Themen	3	16. Jun 2009
W	Reguläre Ausdruck	Java Basics - Anfänger-Themen	6	23. Nov 2022
	PDF Ausdruck auf Drucker - Probleme mit Format	Java Basics - Anfänger-Themen	17	5. Apr 2022
K	Warum zeigt dieser reguläre Ausdruck true an?	Java Basics - Anfänger-Themen	1	9. Jan 2022
	Wie würde man einen regulären Ausdruck in Java schreiben, der prüft, dass zwei bestimtme Zahlen nicht nebeneinadner sind?	Java Basics - Anfänger-Themen	3	7. Jan 2022
	Boolscher Ausdruck	Java Basics - Anfänger-Themen	15	26. Jun 2021
C	Ausdruck	Java Basics - Anfänger-Themen	4	6. Dez 2020
E	Boolescher Ausdruck	Java Basics - Anfänger-Themen	1	18. Jun 2020
M	Regex-Ausdruck: Alle Zeichen bis auf ein bestimmtes erlauben (p{L})	Java Basics - Anfänger-Themen	5	25. Feb 2020
G	Warum ist hier ein Lamda-Ausdruck möglich	Java Basics - Anfänger-Themen	2	23. Aug 2019
O	Lambda Ausdruck mit Wildcard einschränken	Java Basics - Anfänger-Themen	5	27. Jul 2019
F	Ist das ein korrekter Regex-Ausdruck?	Java Basics - Anfänger-Themen	12	25. Jan 2019
B	Interface Java Lambda Ausdruck.	Java Basics - Anfänger-Themen	11	8. Jan 2019
G	Boolschen Ausdruck true machen	Java Basics - Anfänger-Themen	2	3. Apr 2018
F	Ausdruck wirft unerwarteten Error	Java Basics - Anfänger-Themen	2	25. Mrz 2018
K	Regulären Ausdruck in Java abbilden	Java Basics - Anfänger-Themen	4	4. Aug 2017
M	Lambda - Ausdruck zu Beschreibung erstellen	Java Basics - Anfänger-Themen	7	7. Mrz 2017
D	Java Ausdruck erzeugen / Formular	Java Basics - Anfänger-Themen	4	8. Nov 2016
B	Boolscher Ausdruck für mich unverständlich	Java Basics - Anfänger-Themen	7	16. Nov 2015
A	regulären Ausdruck mit Hilfe der Klasse Scanner in einem String finden	Java Basics - Anfänger-Themen	2	30. Jun 2015
J	Frage zu bestimmtem Ausdruck	Java Basics - Anfänger-Themen	2	29. Jun 2015
G	Lambda Ausdruck: Welche Methode ist die Richtige?	Java Basics - Anfänger-Themen	1	24. Mai 2015
C	Auswertung Ausdruck mit Punknotation + Objekt als Parameter	Java Basics - Anfänger-Themen	3	23. Mrz 2015
M	Arithemtischer Ausdruck unklar	Java Basics - Anfänger-Themen	2	11. Jun 2014
A	Lässt sich dieser Ausdruck irgendwie einfacher schreiben?	Java Basics - Anfänger-Themen	4	29. Okt 2012
H	Regulären Ausdruck automatisch erstellen	Java Basics - Anfänger-Themen	5	19. Jul 2012
T	Erste Schritte Im arithm. Ausdruck Zeichen trennen?	Java Basics - Anfänger-Themen	13	15. Jul 2012
D	Boolescher Ausdruck - Problem	Java Basics - Anfänger-Themen	6	1. Apr 2012
R	Suche Regex Ausdruck für HTML	Java Basics - Anfänger-Themen	11	5. Dez 2011
E	Hilfe bei einem Regulären Ausdruck	Java Basics - Anfänger-Themen	7	18. Sep 2011
S	Einfaches Regulaerer Ausdruck Problem	Java Basics - Anfänger-Themen	7	28. Jul 2011
3	3. Element mit regulären Ausdruck suchen	Java Basics - Anfänger-Themen	12	22. Feb 2011
M	regex-Ausdruck irgendein Buchstabe 1 mal	Java Basics - Anfänger-Themen	8	21. Dez 2010
S	Was bedeutet dieser ausdruck?	Java Basics - Anfänger-Themen	9	22. Nov 2010
S	String nach Ausdruck durchsuchen und Folgeattribut ausgeben	Java Basics - Anfänger-Themen	3	18. Nov 2010
H	Ausdruck vereinfachen	Java Basics - Anfänger-Themen	8	10. Nov 2010
J	Datentypen String splitten ohne festen Ausdruck	Java Basics - Anfänger-Themen	8	29. Okt 2010
H	while schleife ohne ausdruck	Java Basics - Anfänger-Themen	7	28. Okt 2010
H	Datei durchsuchen mit Regex-Ausdruck	Java Basics - Anfänger-Themen	14	23. Okt 2010
O	Gibt es dafür einen regulären Ausdruck?	Java Basics - Anfänger-Themen	9	19. Jul 2010
O	RegEx-Ausdruck gesucht	Java Basics - Anfänger-Themen	2	16. Nov 2009
C	bedingten ausdruck zu if-anweisung	Java Basics - Anfänger-Themen	3	20. Okt 2009
O	Mal wieder ein Regex-Ausdruck gesucht!	Java Basics - Anfänger-Themen	5	6. Okt 2009
R	Regulären Ausdruck geht nicht	Java Basics - Anfänger-Themen	2	14. Feb 2009
J	Bitte um Erklärung für einen Java-Ausdruck	Java Basics - Anfänger-Themen	8	8. Jul 2008
T	Wie sieht ein '.' im regulären Ausdruck aus?	Java Basics - Anfänger-Themen	2	23. Apr 2008
G	Wie erstellt man komplexen regulären Ausdruck	Java Basics - Anfänger-Themen	5	12. Mrz 2008
G	Boolscher Ausdruck	Java Basics - Anfänger-Themen	11	5. Feb 2008
R	Reguläre Ausdruck definieren	Java Basics - Anfänger-Themen	3	7. Nov 2007
G	Substrings in regulärem Ausdruck	Java Basics - Anfänger-Themen	2	17. Okt 2007
F	Boolescher Ausdruck (String) in boolean konvertieren	Java Basics - Anfänger-Themen	5	23. Sep 2007
F	Der "super" Ausdruck	Java Basics - Anfänger-Themen	4	2. Sep 2007
S	Ausdruck zur Laufzeit auswerten	Java Basics - Anfänger-Themen	10	15. Aug 2007
G	Was zum Teufel ist denn so ein Ausdruck"variabel : vari	Java Basics - Anfänger-Themen	8	3. Jul 2007
M	Scanner soll nach einem Ausdruck splitten	Java Basics - Anfänger-Themen	2	1. Okt 2006
R	Ausdruck	Java Basics - Anfänger-Themen	2	29. Okt 2005
J	Was sagt mir dieser Ausdruck?	Java Basics - Anfänger-Themen	9	9. Dez 2004
S	Ausdruck?	Java Basics - Anfänger-Themen	5	4. Apr 2004

regulärer Ausdruck: ^ $

diggaa1984

Top Contributor

xorm

Mitglied

pexx

Mitglied

diggaa1984

Top Contributor

pexx

Mitglied

diggaa1984

Top Contributor

pexx

Mitglied

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen