Informationen aus komplexen String parsen

M

MichaelB_z7ssfr

Gast
Hallo allesamt,

ich brauche etwas Hilfe einen String zu parsen. Und zwar geht es um einen formatierten Text, der für das menschliche Auge gut lesbar ist. Dieser enthält einige Informationen, die ich auslesen möchte. Der Aufbau dieses Textes ist mir bekannt, es gibt einige Regeln, wie

- Firmenname steht immer an Position 4 - nächster Blank
- Artikelnummern beginnen nach "Ihre Bestellung:\n" und die sind duch "\n" getrennt.
- Verkäufernummer steht immer in der letzten Zeile.

Solche Regeln halt. Mit viel indexOf und Regex-Gefrickel bekomme ich das alles wohl auch raus. Ich frage mich aber, ob es sowas nicht schon einfacher gibt. Irgendein Framework, das ich mit solchen Regeln konfigurieren kann und das mir dann ein gefülltes Objekt oder eine gefüllt Map zurückgibt.

Hat einer ein Schlagwort für mich?

Gruß Michael
 
S

schlagi123

Gast
Hallo MichaelB_z7ssfr,

hier ein kleines Beispiel:
Java:
String s = "Hallo dies ist ein Test";
StringTokenizer tokenizer = new StringTokenizer(s," ", false);

ArrayList<String> tokens = new ArrayList<String>();
while (tokenizer.hasMoreTokens()){
    tokens.add(tokenizer.nextToken());
}

Im zweiten Parameter des StringTokenizer ist ein String. Jedes Zeichen dieses Strings gilt als Trennzeichen (Im Beispiel nur das Leerzeichen). der Dritte Parameter gibt an, ob die Trennzeichen auch als Tokens benutzt werden sollen (Im Beispiel false, weil ich nur die einzelnen Wörter haben möchte).

Griß schlagi123
 
M

MichaelB_z7ssfr

Gast
Die ganzen Low-Level Funktionen sind mir bekannt. Ich suche etwas, dass 2-3 Ebenen höher arbeitet. Als Codebeispiel würde ich mir etwas in der Art wünschen:

Java:
String meineRechnung = "Kaufhaus Patzig\nPatzstrasse 7\n12345 Patzstadt\n\nIhr Einkauf:\nDose Cola\t1\t€0.59\nKinderriegel\t1\t€0.25\n\nGesamt: €0.84\nEs bediente Sie: Bernd";

CoolesFramework cfw = new CoolesFramework();
cfw.setVariable("PLZ", "coole Syntax");
cfw.setVariable("Artikel", "coole Syntax");
cfw.setVariable("Verkäufer", "coole Syntax");

Map<String, Object> result = cfw.parse(meineRechnung);
Assert.assertEquals("12345", result.get("PLZ"));
Assert.assertEquals(2, result.getArray("Artikel").length);
Assert.assertEquals("Bernd", result.get("Verkäufer"));

Muss natürlich nicht genauso aussehen, aber die Idee wird hoffentlich klar.

Gruß Michael
 
I

irgendjemand

Gast
wenn du mit sowas arbeiten willst musst du es dir wohl selbst programmieren ... aber ein framework dieser art gibt es nicht da dich jeder lediglich an RegEx verweisen würde ...
 

ARadauer

Top Contributor
Diese coole sytax wäre sehr complex wo wier wieder bei regex wären, also mir ist da nix bekannt, finde die idee aber interessant
 
M

MichaelB_z7ssfr

Gast
RegEx war für mich bisher etwas, dass einen Text gegen eine bestimmte Syntax prüft, aber keine Werte rausholen kann. Also sagen kann "In diesem Text gibt es eine PLZ", aber nicht "Die PLZ ist 12345". Vielleicht habe ich RegEx bisher unterschätzt...

Kannst du mir ein Beispiel geben, wie ich aus oberem Beispiel die PLZ ermittele unter der Annahme, dass die immer mit der dritten Zeile beginnt und bis zum ersten Blank der ersten Zeile geht?
 
I

irgendjemand

Gast
warum soll man mit RegEx keine werte rausholen können ?
schau dir die docs zu java.util.regex.Pattern und java.util.regex.Matcher noch mal genau an ... vor allem was das sog. grouping angeht ...
 

faetzminator

Gesperrter Benutzer
Kannst du mir ein Beispiel geben, wie ich aus oberem Beispiel die PLZ ermittele unter der Annahme, dass die immer mit der dritten Zeile beginnt und bis zum ersten Blank der ersten Zeile geht?

Kein Problem, hier erstens die konventonelle und dann noch eine Einzeilermethode:
Java:
public static String extract1(String input) {
    Matcher m = Pattern.compile(".*\\n.*\\n(.*?) ").matcher(input);
    if (m.find()) {
        return m.group(1);
    }
    return input;
}

public static String extract2(String input) {
    return input.replaceFirst(".*\\n.*\\n(.*?) (.|\\s)*", "$1");
}
 

Michael...

Top Contributor
Kannst du mir ein Beispiel geben, wie ich aus oberem Beispiel die PLZ ermittele unter der Annahme, dass die immer mit der dritten Zeile beginnt und bis zum ersten Blank der ersten Zeile geht?
Wenn man die Annahme trifft, bräuchte man nicht mal RegEx. Falls noch nicht geschehen zerlegt man den String in seine Zeilen. In der dritten Zeilen sucht man mit indexOf nach dem ersten Leerzeichen und holt sich die Postleitzahl per substring. Die Artikel erkennt man daran, dass diese zwischen der Zeile "Ihr Einkauf:" und "Gesamt" stehen. Danach folgt direkt der Verkäufer, den man zur Not auch finden kann in dem man nach einer Zeile sucht, die mit "Es bediente" beginnt.
Zugegeben mit RegEx geht das ein bisschen eleganter.
 

MichaelBulla

Mitglied
Hurra, habe sogar meine Zugangsdaten wiedergefunden.

Erst mal danke für die Hilfe soweit. Es sieht tatsächlich so aus, als hätte ich Regex bisher total unterschätzt. Aber wirklich glücklich bin ich damit noch nicht. Aber vermutlich suche ich nichts, was 2-3 Ebenen über Regex liegt, sondern nur eine ;).

Das ganze Geregexe läuft darauf hinau, dass ich immer nur kleine Teile des gesamten Textes analysiere, um an Informationen ranzukommen (z.B. beachtet die PLZ-Regex gar nicht, was da hinten bei den Lineitems steht). Ich möchte etwas, das ich über den gesamten Text legen kann, das die relevanten Textstellen maskiert und das mir dann die jeweiligen Informationen zur Verfügung stellt.

Sicher könnte ich jetzt mit meinem neuerworbenen Wissen eine Regex erstellen, die ich auf den gesamten Text anwende, die alle relevanten Stellen als group definiert und dann über die Groups alles auslesen. Dabei ergeben sich aber zwei Probleme:
- Das wird schon für mäßig komplexe Texte eine Regex von mehreren DIN A4 Seiten
- Mit den Groups komme ich in Reihenfolge-Probleme: Angenommen ich will aus dem o.g. Bon PLZ und Verkäufername parsen. Nun erstelle ich eine Regex, in der die Group1 die PLZ darstellt, und die Group2 den Verkäufernamen. Wenn sich der Aufbau des Bons dahingehend ändert, dass der Verkäufer nun über der PLZ steht, dann muss ich nicht nur die Beschreibung des Bons umkonfigurieren, sondern auch noch im Code ändern, dass nun der Verkäufer nun aus der Group1 gelesen werden muss und die PLZ aus der 2.

Ich gebe ja zu, dass ich nicht ganz wenig verlange. Aber der Wunsch Schlüsselworte / Schlüsselpositionen in einem Fließtext zu suchen ist doch auch nicht ganz aus der Welt gegriffen. Oder ist das tatsächlich eine so komplexe Anforderung, dass ich grob in Richtung Compilerbau gucken muss?!?

EDIT:
Noch mal drüber nachgedacht... Aufs obere Beispiel angewendet, könnte das wie folgt aussehen:

Java:
String rechnungTemplate = "${Header}\n${Strasse} ${Hausnummer}\n${PLZ} ${Stadt}\n${Adresszusatz}\nIhr Einkauf:\n${repeatable:Artikel}${Artikelname}\t1\t€${Artikelpreis}\n${repeatable:end}Es bediente Sie: ${Verkäufer}<eof>";

String meineRechnung = "Kaufhaus Patzig\nPatzstrasse 7\n12345 Patzstadt\n\nIhr Einkauf:\nDose Cola\t1\t€0.59\nKinderriegel\t1\t€0.25\n\nGesamt: €0.84\nEs bediente Sie: Bernd";
 
CoolesFramework cfw = new CoolesFramework(rechnungTemplate);
 
Map<String, Object> result = cfw.parse(meineRechnung);
Assert.assertEquals("12345", result.get("PLZ"));
Assert.assertEquals(2, result.getArray("Artikel").length);
Assert.assertEquals("Bernd", result.get("Verkäufer"));

Wie ich das Beispiel so zusammengeschrieben habe, hat die o.g. Syntax bisschen was von XML. Fällt einem von euch vielleicht auf dieser Basis etwas ein, was man benutzen kann? XSLT irgendwie zweckentfremden, oder so?
 
Zuletzt bearbeitet:

Michael...

Top Contributor
Man muss das ganze ja auch nicht unbedingt mit nur einem RegEx machen. (Wie gesagt könnte man das ja auch ganz ohne)
Aber gewisse Annahmen muss man schon treffen können, z.B. das eine fünfstellige Anzahl am Zeilenanfang eine Postleitzahl darstellt...
und wenn es Schlüsselwörter gibt, kann man ja nach deren Position suchen.
Java:
String rechnungTemplate = "${Header}\n${Strasse} ${Hausnummer}\n${PLZ} ${Stadt}\n${Adresszusatz}\nIhr Einkauf:\n${repeatable:Artikel}${Artikelname}\t1\t€${Artikelpreis}\n${repeatable:end}Es bediente Sie: ${Verkäufer}<eof>";

String meineRechnung = "Kaufhaus Patzig\nPatzstrasse 7\n12345 Patzstadt\n\nIhr Einkauf:\nDose Cola\t1\t€0.59\nKinderriegel\t1\t€0.25\n\nGesamt: €0.84\nEs bediente Sie: Bernd";
 
CoolesFramework cfw = new CoolesFramework(rechnungTemplate);
 
Map<String, Object> result = cfw.parse(meineRechnung);
Assert.assertEquals("12345", result.get("PLZ"));
Assert.assertEquals(2, result.getArray("Artikel").length);
Assert.assertEquals("Bernd", result.get("Verkäufer"));

Wie ich das Beispiel so zusammengeschrieben habe, hat die o.g. Syntax bisschen was von XML. Fällt einem von euch vielleicht auf dieser Basis etwas ein, was man benutzen kann? XSLT irgendwie zweckentfremden, oder so?
Der XML Vergleich ist jetzt doch ein bisschen weit her geholt ;-) Bei XML gibt es ja die auszeichnenden Tags, welche die Bedeutung des Wertes definieren. Die fehlen hier auf der Rechnung.
 
V

vanny

Gast
Grob genommen hast du nur 2 Möglichkeiten:

1. Deine DatenQuelle, welcher Art auch immer, hat eine feste Struktur, mit irgendwelchen Trennzeichen.
2. Die einzelnen Daten sind mit irgendwelchen Schlüsseln versehen (artikel="123765").

zu 1.
Du parst den Inhalt und schlüsselst ihn anhand der jeweiligen Position auf.
Nachteil ist wie du schon gemerkt hast, dass eine Änderung der Aufteilung auch eine Änderung im Code nach sich ziehen würde.

zu 2.
XML ist nicht um sonst so Wertvoll xD.
EDIT: ja der XML Vergleich hinkt ganz schön, ist aber schon die Richtung

Gruß Vanny
 
Zuletzt bearbeitet von einem Moderator:

MichaelBulla

Mitglied
Nachteil ist wie du schon gemerkt hast, dass eine Änderung der Aufteilung auch eine Änderung im Code nach sich ziehen würde.

Das will ich ja eben vermeiden. Kurz zum Hintergrund: Ich bekommen "Kassenbons" von 100en verschiedener Providern (und es sind auch keine Kassenbons, aber das Beispiel ist so schön greifbar). Mein Ziel ist es die Syntax der generierten Daten anhand einer Konfiguration beschreiben zu können. Und am liebsten auch nur mit einer Zeile in der Property-Datei und nicht je ein Eintrag pro Variable und pro Provider.

Der Vergleich mit XML kommt, wenn man das o.g. Beispiel weiterspinnt:
- Wiederholende Werte haben wir schon
- Optionale könnten dazukommen
- Vielleicht will ich den Datentypen mitgeben
- Validierungen
- ...

Java:
String rechnungTemplate = """<variable name="Header"/><newLine/>
<variable name="Strasse"/><blank/>
<variable name="Hausnummer" type="int"/><newLine/>
<variable name="PLZ" validation="\d{5,5}"/><blank/>
<variable name="Stadt"/><newLine/>
<optional><variable name="Adresszusatz"/><newLine/></optional>
Ihr Einkauf:<newLine/>
<repeatable name="Artikel">
  <variable name="Artikelnummer"/>
  <tab/><tab/>€<variable name="Artikelpreis"/><newLine/>
</repeatable>
<optional>Es bediente Sie: <variable name="Verkäufer"/></optional>
<eof/>""";

Najut, dies nur der Vollständigkeit halber (falls hier grad jemand auf der Suche nach einem Code Kata ist ;) ). Verliere aber gerade tatsächlich die Hoffnung was Fertiges zu finden.
 
Zuletzt bearbeitet:

Michael...

Top Contributor
XML ist eine auszeichnende Sprache, die Daten werden hier hinsichtlich ihrer Bedeutung gekennzeichnet, z.B.
[XML]<ArticleList>
<Position id="1">
<Article>
<Name>Cola</Name>
<Price currency="EUR">0.5</Price>
</Article>
<Amount>4</Amount>
...
</Position>
</ArticleList>[/XML]
Eine solche Beschreibung der Inhalte gibt es auf Deinem "Kassenbon" nicht. Du bzw. Dein Programm muss daher die Daten interpretieren - möglichst anhand von Regeln dir für alle Varianten des "Kassenbons" gelten.
Welche Regeln da gelten könnten ist ohne die Daten zu kennen schwer zu sagen.
 
Ähnliche Java Themen
  Titel Forum Antworten Datum
I Laden von Informationen aus Dateien: Austauschbarkeit: 2 Dateien sinnvoll? Allgemeine Java-Themen 2
E Datei-Informationen Allgemeine Java-Themen 12
M Film Informationen aus Internet beziehen Allgemeine Java-Themen 4
B Suche Datenquelle für lizenz-informationen Allgemeine Java-Themen 5
C Informationen in eine Datei auslagern Allgemeine Java-Themen 19
C C-ähnlichen Code nach speziellen Informationen durchsuchen Allgemeine Java-Themen 2
J Welche Informationen werden beim Kompilieren gespeichert? Allgemeine Java-Themen 3
T Ausgabeumleitung in Datei + weitere Informationen Allgemeine Java-Themen 3
R Speichern von zusätzlichen Informationen Allgemeine Java-Themen 4
C Viele Informationen aus zwei Collections vergleichen Allgemeine Java-Themen 2
S System Informationen auslesen. Allgemeine Java-Themen 3
M Desktop-Informationen Allgemeine Java-Themen 2
M Email - Informationen auslesen Allgemeine Java-Themen 3
M Informationen über abgeleitete Klassen Allgemeine Java-Themen 18
L Informationen aus mp3-Song Allgemeine Java-Themen 5
D Informationen speichern Allgemeine Java-Themen 12
M datei informationen auslesen Allgemeine Java-Themen 16
T Informationen zu Diensten Allgemeine Java-Themen 3
T wie speichert man Daten/Informationen? Allgemeine Java-Themen 8
Luma Zip-Archiv auslesen und Entry-Informationen auslesen Allgemeine Java-Themen 3
N Servlets: Formulardaten auslesen (POST) - mehr Informationen Allgemeine Java-Themen 4
Zrebna Automatisiertes Testen von größeren und komplexen Prozessen Allgemeine Java-Themen 56
N Thread Sicherheit im komplexen Datenmodell Allgemeine Java-Themen 7
E Nochmal komplexen String matchen und splitten Allgemeine Java-Themen 2
OnDemand Java String in Hashmap als Key NULL Allgemeine Java-Themen 27
JAnruVA Datentypen Berechneten String-Wert in Double umwandeln um weiter zu rechnen Allgemeine Java-Themen 7
M String Allgemeine Java-Themen 10
M Suche nach String mit unbekannten characters Allgemeine Java-Themen 53
kodela String kann nicht zu Pfad konvertiert werden Allgemeine Java-Themen 16
melaniemueller Einzelne Zeile aus einer txt Datei in einem String speichern Allgemeine Java-Themen 12
E Objekte in einen String packen und wieder laden Allgemeine Java-Themen 5
M Map<String,String>funktioniert nicht richtig Allgemeine Java-Themen 4
O String in Long Hexerdezimal umwandel Allgemeine Java-Themen 14
N String vergleichen. Allgemeine Java-Themen 27
P String.replace() funktioniert nicht? Allgemeine Java-Themen 3
SaschaMeyer Arbeitet String.split falsch? Allgemeine Java-Themen 4
M Switches ohne String Allgemeine Java-Themen 18
AmsananKING String Iteration Allgemeine Java-Themen 5
S Shuffle String aus if-clause Allgemeine Java-Themen 11
Besset Variablen Ist String = "" + int inordnung? Allgemeine Java-Themen 6
M Map <Long, String> zu Map<String, Long> Allgemeine Java-Themen 9
S String Encoding Verständnisproblem Allgemeine Java-Themen 22
N Prüfen, ob ein String 2x das selbe Zeichen hat Allgemeine Java-Themen 10
SaftigMelo Bug Fixen von String-spliten Allgemeine Java-Themen 8
Monokuma String List nach Zahlen und Worten sortieren Allgemeine Java-Themen 9
Kingamadeus2000 Alle mehrfach vorkommenden Buchstaben rekursiv aus einem String entfernen. Allgemeine Java-Themen 6
YohnsonM String - Aufteilung und Nutzung einzelner Chars Allgemeine Java-Themen 7
O Formatierte String ausgabe bei vier Variablen in einer Zeile Allgemeine Java-Themen 1
S String umbenennen: wie? Allgemeine Java-Themen 4
x46 String Format Fehler Allgemeine Java-Themen 2
S ISO 8601 -> getter / setter String Allgemeine Java-Themen 3
L String zu repräsentativen Wert Allgemeine Java-Themen 0
H Array mit dem Datentype String[] initializieren Allgemeine Java-Themen 7
L ArrayList mit String Arrays in ein Array umwandeln Allgemeine Java-Themen 1
L regex ganzer string? Allgemeine Java-Themen 2
L Ist ein string ein erlaubter variabel name? Allgemeine Java-Themen 2
Z JNA Cpp-DLL String Verwendung Allgemeine Java-Themen 2
A String auf Zahlen überprüfen Allgemeine Java-Themen 5
N String Array Eingabe Allgemeine Java-Themen 6
MiMa Datum von String zu LocalDateTime Allgemeine Java-Themen 8
W String -> byte[] -> String - Sieht jemand was ich nicht sehe? Allgemeine Java-Themen 10
R char aus String entfernen Allgemeine Java-Themen 10
LimDul Mittels Streams aus Strings A B C den String A, B und C machen Allgemeine Java-Themen 12
M Programm erkennt String aus .txt Datei nicht Allgemeine Java-Themen 3
P einen public <Optinal String> in einer anderen Klasse mit einem Int vergleichen Allgemeine Java-Themen 2
S Ini Text aus String parsen Allgemeine Java-Themen 1
T String-Manipulation beim Ablauf in Eclipse und als JAR-File Allgemeine Java-Themen 8
M String lässt sich nicht Zusammenfügen Allgemeine Java-Themen 10
Drachenbauer Wie kann ich das Wort "concrete" in einem String durch ein anderes Wort ersetzen lassen? Allgemeine Java-Themen 5
R Schlüsselworte "Throw new exception" gibt nicht den String als Fehlermeldung aus Allgemeine Java-Themen 2
R Variablen String mit split-Funktion aufteilen Allgemeine Java-Themen 7
F Datei in String-Array einlesen Allgemeine Java-Themen 8
S Marker aus String ermitteln Allgemeine Java-Themen 5
T Objekt mit String und Int aus TxT Datei erstellen Allgemeine Java-Themen 23
M Bei String.format ein Komma statt einem Punkt ausgeben lassen Allgemeine Java-Themen 1
S MSSQL Exception & Connection String Allgemeine Java-Themen 19
B Bei Email: FW / AW... - Hilfe bei String suche Allgemeine Java-Themen 21
J String - Vergleiche Allgemeine Java-Themen 7
K Aus String zwei Jahreszahlen auslesen Allgemeine Java-Themen 18
Drachenbauer Wie kann eine vorgegebene Farbe über einen String erkannt werden? Allgemeine Java-Themen 11
G CSV in String Allgemeine Java-Themen 7
P String-Verschlüsselung - Frage zur Sicherheit Allgemeine Java-Themen 21
K Methodenaufruf mit String / String zu Objekt konvertieren Allgemeine Java-Themen 8
D Erste Schritte Fehler mit negativen und 0 Zahlen im String Allgemeine Java-Themen 6
Xge Replace x Zeichen aus String Allgemeine Java-Themen 2
coolian warum bekomme ich ein string index out of bounds exception Allgemeine Java-Themen 17
F In String 2 Buchstaben vertauschen Allgemeine Java-Themen 2
J Class Decompile als String (Procyon) Allgemeine Java-Themen 2
I Datentypen String in class sicher verwahren Allgemeine Java-Themen 17
J Falls der String ein "X" beinhaltet Allgemeine Java-Themen 2
T String mehrere Worte Allgemeine Java-Themen 2
D String Groß-/Kleinschreibung Allgemeine Java-Themen 2
D String und Klassenvariable Allgemeine Java-Themen 6
Aruetiise Funktion(y = mx+n) in String speichern und berechnen Allgemeine Java-Themen 9
C String in Objektnamen umwandeln Allgemeine Java-Themen 3
E Variablen Aus .txt ausgelesener string mit if() überprüfen? Allgemeine Java-Themen 2
L String-Schema-Aufspaltung Allgemeine Java-Themen 2
E String in Zahl umwandeln, ohne Befehl Integer.parseInt Allgemeine Java-Themen 3
L String splitten und multiplizeren Allgemeine Java-Themen 10
G String mit umbekannter länge splitten. Allgemeine Java-Themen 2

Ähnliche Java Themen

Neue Themen


Oben