Suche Regex Ausdruck für HTML

ronin77 · 5. Dez 2011

Hallo,

ich möchte aus einer HTML-Datei Werte mittels Regex auslesen. Das Problem sind glaub ich die Zeilenumbrüche und Leerzeichen bei mir. Kann mir da jemand helfen und einen passenden Ausdruck formulieren? Das HTML sieht wie folgt aus:

HTML:

<dt>Name:</dt>
    <dd>
      Testuser
        
        
    </dd>
            
        <dt>Dabei seit:</dt>
    <dd>11.11.2011</dd>

... und so weiter...
Ich möchte mir dynamisch in der Anwendung einen Ausdruck zusammen bauen und mir explizit je nach Bedarf den Namen oder auch das Datum nach "Dabei seit:" auslesen. Wäre echt klasse, wenn mir jemand sagen kann, wie dieser Ausdruck aussehen muss...

Danke,
Ronin

faetzminator · 5. Dez 2011

Java:

public static String getResult(String input, String key) {
    Matcher m = Pattern.compile("<dt>\\s*" + key + ":\\s*</dt>\\s*<dd>\\s*(.*?)\\s*</dd>").matcher(input);
    if (m.find()) {
        return m.group(1);
    }
    return null;
}

Gibt korrekterweise beim Aufruf von:

Java:

System.out.println(getResult(input, "Name"));
System.out.println(getResult(input, "Dabei seit"));

ein:

Code:

Testuser
11.11.2011

Schlussfolgerung: mit [c]\s*[/c] ist man immer gut bedient

ronin77 · 5. Dez 2011

Vielen Dank. Das

HTML:

\s*

war die Lösung... Genauso wollte ich das haben!

Dow Jones · 5. Dez 2011

Umm, mit RegEx auf anderer Leute HTML loszugehen ist immer etwas heikel, da man sich leider nie sicher sein kann das
a) der HTMLcode auch wohlgeformt ist (bzw. so wie man ihn haben möchte) und
b) das sich der HTMLcode nie ändert (was zur Folge haben kann das der RegEx was falsches matched, wenn überhaupt irgendwas)

Daher würde ich eher dazu raten XPath statt RegEx zu nutzen. Dann muss man sich nicht mehr um Leerzeichen oder Zeilenumbrüche kümmern, und übersichtlicher ist es auch.

HtmlCleaner wäre zum Beispiel eine passende Library. Da steckst du ein HTML Dokument rein, lässt einen DOM-Tree generieren, und kannst anschließend mit XPath darin "herumlaufen". In etwa so:

Java:

String name = htmlRootnode.evaluateXPath("//dd[1]").getText();
String datum = htmlRootnode.evaluateXPath("//dd[2]").getText();

faetzminator · 5. Dez 2011

Und wie geb ich mit XPath das Element aus, welches zu [c]Name:[/c] passt? Natürlich in einer einfacheren, als von mir geposteten Regex-Lösung

Dow Jones · 5. Dez 2011

Meinst du den String "Testuser"? Dazu dient das .getText() am Ende.

faetzminator · 5. Dez 2011

Genau. Aber da referenzierst du einfach auf [c]//dd[1][/c] und nicht auf [c]"Name:"[/c]. Wie würde bei dir eine Methode [c]getResult(String input, String key)[/c] aussehen?

Dow Jones · 5. Dez 2011

Keine Ahnung. So gut kenne ich mich damit auch nicht aus. Wenn man ansonsten gar nichts über die Umgebung weiss in welcher der Key auftaucht, dann könnte man halt alle dt-Tags des Dokuments durchlaufen bis man den denjenigen mit dem gewünschten Key findet. Und der gesuchte String befindet sich dann halt in dem darauf folgenden dd-Tag.

In der Praxis findet man in HTMLseiten, die man sich aus dem Netz fischt, aber jede Menge Anhaltspunkte, die einem bei der Suche helfen. So eine Seite in dreckigem Strassen-HTML schaut erfahrungsgemaess eher so aus:

Code:

...
<div class="currentuser">
   username:
   <dt class="username">Name:
      < dd fontsize=5>
         > <img src="mein_avatar.jpg">
      Testuser
        
        
    </dd>
            
        <dt>Dabei seit:</dt>
    <dd><a href="kalender.html">11.11.2011</ a ></dd>
   ...
<div>
...

Da wird es (für XPath) freilich sehr leicht, sich z.B. an den Class-Namen zu orientieren um die gewünschten Informationen zu finden. Soetwas jedoch korrekt mit RegEx behandeln zu wollen wird für mein Empfinden deutlich unübersichtlicher. Und selbst im Fall, das der vom TE gepostete Dokumentenschnipsel tatsächlich das gesamte Dokument darstellt, das er jemals parsen möchte, finde ich XPath noch ästhetischer als RegExp.

ronin77 · 6. Dez 2011

... und schon stehe ich vor dem nächsten Problem:

Mein oben genannter Ausschnitt kann inhaltlich leicht variieren. Es kommen folgende Variationsmöglichkeiten hinzu.

HTML:

...   
                <dt>Geburtstag:</dt>
    <dd>
                    07.07.1977                        (34)
                    		<a href="/Events" class="icon icon-cal">Zum Kalender</a>
    </dd>
...

oder auch

HTML:

...
<dt>Heimatland:</dt>
    <dd><a href="/Search/SearchSuper/platform/1/homeCountry/Deutschland/doSearch/1/rmC/1">Deutschland</a></dd>
...

Kann ich das dann alles mit einem einzigen Ausdruck abwickeln? Oder benötige ich seperate reguläre Ausdrücke? Wenn ja, wie würden die anderen beiden Fälle aussehen?

Vielen vielen Dank nochmal!!!

Dow Jones · 6. Dez 2011

Auch wenn ich mich wiederhole - ich würde mir das mit RegEx nicht antun. Investiere lieber 2 Stunden um dich in XPath einzulesen. Dann kannst du dir leicht alle Dokumentknoten des Typs <dt> herausfischen lassen, überprüfen ob da der richtige Text drinsteht, und dir dann ggf. den folgenden <dd>-Knoten ausgeben lassen. Geht zwar nicht in einer Zeile, ist aber simpel, lesbar und wartbar.

Michael... · 6. Dez 2011

Nur der Vollständigkeit habler:
Es gibt auch Pattern.compile(String, int) Damit können dem Pattern bestimmte Flags übergeben werden, z.B. DOTALL um Zeilenumbrüche auch mit

Code:

zu matchen. Damit spart man sich auch das \s oder \s*.

faetzminator · 6. Dez 2011

ronin77 hat gesagt.:
Kann ich das dann alles mit einem einzigen Ausdruck abwickeln? Oder benötige ich seperate reguläre Ausdrücke? Wenn ja, wie würden die anderen beiden Fälle aussehen?

Was soll denn das Ergebnis sein?

	Titel	Forum	Antworten	Datum
I	Reflection: Suche Feld + in Unterklassen	Java Basics - Anfänger-Themen	7	19. Jan 2024
	Suche Java Stream Tutorial	Java Basics - Anfänger-Themen	2	29. Mrz 2023
M	Suche Resteasy Example	Java Basics - Anfänger-Themen	24	11. Jan 2023
B	Beliebiger String gegeben Suche Datum in String	Java Basics - Anfänger-Themen	6	17. Nov 2022
M	binäre Suche im Intervall	Java Basics - Anfänger-Themen	6	20. Okt 2022
M	binäre Suche	Java Basics - Anfänger-Themen	4	19. Okt 2022
H	Suche Java3D 32 bit	Java Basics - Anfänger-Themen	20	3. Jul 2022
	Lineare Suche / Binäre Suche	Java Basics - Anfänger-Themen	2	11. Mrz 2022
F	Suche nach betreuender Person für eine Jahresarbeit der 12. Klasse.	Java Basics - Anfänger-Themen	6	31. Jan 2022
K	Warum ist die binäre Suche bei der verketteten Liste nicht so effektiv?	Java Basics - Anfänger-Themen	3	14. Dez 2021
H	Suche jemanden für kleine Uni-Abgabe/ mit Vergütung	Java Basics - Anfänger-Themen	1	13. Dez 2021
	Binäre Suche, unsortiert, lokales Maximum	Java Basics - Anfänger-Themen	15	21. Jan 2021
Y	Suche von Studenten anhand Ihrer Eigenschaften.	Java Basics - Anfänger-Themen	1	23. Dez 2020
F	Auf der Suche in π	Java Basics - Anfänger-Themen	13	25. Nov 2020
C	Suche Nachhilfe in Java	Java Basics - Anfänger-Themen	5	15. Aug 2020
T	Binärbaum-Suche Implementation	Java Basics - Anfänger-Themen	6	3. Jun 2020
A	suche dringend Hilfe!!	Java Basics - Anfänger-Themen	6	1. Mai 2020
N	Operatoren Schreibtischtest der Reihen-Suche nach Aufschluss in die Basics	Java Basics - Anfänger-Themen	1	23. Feb 2020
B	Suche free SVN Hosting	Java Basics - Anfänger-Themen	12	28. Mai 2019
S	Binäre-Suche Algorithmus	Java Basics - Anfänger-Themen	1	29. Apr 2019
S	Java Lineare-Suche Zeitmessung	Java Basics - Anfänger-Themen	5	25. Apr 2019
S	Java Lineare Suche	Java Basics - Anfänger-Themen	1	11. Apr 2019
S	Binäre-Suche bei unsortierten Daten	Java Basics - Anfänger-Themen	7	23. Mrz 2019
E	Die richtige Suche in der API	Java Basics - Anfänger-Themen	1	25. Feb 2019
S	suche nach varible POSITION ... fuer das pixel-maennchen	Java Basics - Anfänger-Themen	4	15. Jan 2019
E	Weg-Suche-Problem rekursiv	Java Basics - Anfänger-Themen	12	11. Jan 2019
B	Suche Programme mit Fehlern	Java Basics - Anfänger-Themen	9	5. Jul 2018
	Component für Suche	Java Basics - Anfänger-Themen	4	9. Jun 2018
L	Suche ein sampel Projekt	Java Basics - Anfänger-Themen	2	2. Apr 2018
P	Suche Aufwandsgenerator (o-notation)	Java Basics - Anfänger-Themen	1	26. Mrz 2018
S	Suche aktuelles 2D Grafik Tutorial	Java Basics - Anfänger-Themen	5	20. Mrz 2018
M	Suche hilfe bei Array	Java Basics - Anfänger-Themen	4	15. Feb 2018
L	Binäre Suche mit Comparator	Java Basics - Anfänger-Themen	5	18. Jan 2018
J	Methoden Suche effiziente Implementierung für eine Methode	Java Basics - Anfänger-Themen	3	28. Dez 2017
D	Ich suche nach einer Möglickeit den Webseiten Inhalt per Java zu analysieren Automatisch	Java Basics - Anfänger-Themen	3	26. Dez 2017
B	String: suche nach Wörter und in List<String> speichern	Java Basics - Anfänger-Themen	3	13. Dez 2017
D	Erste Schritte Suche Quelltext	Java Basics - Anfänger-Themen	7	25. Okt 2017
M	Rekursion Minimums Suche	Java Basics - Anfänger-Themen	12	3. Sep 2017
J	Suche Hilfestellung	Java Basics - Anfänger-Themen	10	9. Jun 2017
G	Erste Schritte Suche Java Programmierer für kleines Projekt	Java Basics - Anfänger-Themen	1	26. Feb 2017
J	Suche die Emailadresse	Java Basics - Anfänger-Themen	6	16. Nov 2016
H	Suche in Text und Markierung	Java Basics - Anfänger-Themen	14	15. Nov 2016
H	Suche in einem Text	Java Basics - Anfänger-Themen	17	15. Nov 2016
H	Erste Schritte Binäre Suche	Java Basics - Anfänger-Themen	37	21. Jun 2016
J	Suche simples Beispiel für die EOFException	Java Basics - Anfänger-Themen	1	11. Jun 2016
H	Rekursion Binäre Suche	Java Basics - Anfänger-Themen	2	19. Jul 2015
L	Binäre Suche	Java Basics - Anfänger-Themen	2	1. Jul 2015
L	Linerae Suche in einem sortierten Array	Java Basics - Anfänger-Themen	2	1. Jul 2015
N	Array, lineare Suche, binäre Suche, Programm bleibt unerwartet stehen...	Java Basics - Anfänger-Themen	6	29. Jun 2015
I	Innerhalb einer Methode suchen und hinzufügen. Neues Objekt in Suche dann?	Java Basics - Anfänger-Themen	8	3. Mai 2015
B	Binäre Suche - Junit Test	Java Basics - Anfänger-Themen	6	24. Apr 2015
L	Einfache Lineare Suche	Java Basics - Anfänger-Themen	7	21. Mrz 2015
J	Binäre Suche eines Array	Java Basics - Anfänger-Themen	5	25. Jan 2015
M	Methoden Binäre Suche als rekursive Variante	Java Basics - Anfänger-Themen	5	6. Jan 2015
D	Suche nach der Anzahl von Zonen zwischen zwei Punkten	Java Basics - Anfänger-Themen	2	22. Dez 2014
M	Benutzerdefinierte Suche in einem String - outofbounds	Java Basics - Anfänger-Themen	7	9. Dez 2014
X	Best Practice SUCHE ein gutes Javabuch! (kein Anfang von 0)	Java Basics - Anfänger-Themen	5	8. Dez 2014
B	Binäre Suche in einem String Array	Java Basics - Anfänger-Themen	10	29. Nov 2014
A	Heap Space Error bei rekursiver Suche in Dateien trotz nur einer Zeile im Speicher	Java Basics - Anfänger-Themen	26	17. Nov 2014
M	Rekursive Suche in einem Feld	Java Basics - Anfänger-Themen	11	9. Nov 2014
S	Suche richtigen Typ für Variabel mit den Werten (neu, gebraucht, beschädigt)	Java Basics - Anfänger-Themen	7	15. Okt 2014
M	Best Practice Programmierstil Graphen-A*-Suche	Java Basics - Anfänger-Themen	5	17. Sep 2014
M	Suche Hilfe bei sehr kleinen Quelltexten	Java Basics - Anfänger-Themen	2	11. Sep 2014
E	Suche Klasse die eine Bedinung prüft und einen von zwei Auswahlwerten zurückgibt...	Java Basics - Anfänger-Themen	6	16. Aug 2014
D	Erste Schritte suche hilfe für db-anbindung	Java Basics - Anfänger-Themen	36	2. Aug 2014
S	Java Servlet - Suche	Java Basics - Anfänger-Themen	1	1. Jul 2014
P	Hashing suche	Java Basics - Anfänger-Themen	4	26. Jun 2014
K	Suche Hilfe bei einfachem Java Code ( Debuggen )	Java Basics - Anfänger-Themen	1	22. Jun 2014
J	Variablen Auf der suche nach einem Befehl	Java Basics - Anfänger-Themen	2	12. Mai 2014
M	Binäre Suche Fehler überall =(	Java Basics - Anfänger-Themen	2	6. Mai 2014
	Suche Übungsaufgaben: BinaryTree, Stack	Java Basics - Anfänger-Themen	0	11. Apr 2014
D	Binärbaum Suche	Java Basics - Anfänger-Themen	5	4. Apr 2014
U	Vererbung Suche Hilfe anhand eines Bsp.	Java Basics - Anfänger-Themen	1	28. Mrz 2014
L	Suche Programmier-Projekt mit Anleitung	Java Basics - Anfänger-Themen	3	22. Mrz 2014
A	Suche Programmierer für Android App	Java Basics - Anfänger-Themen	1	9. Mrz 2014
H	Suche Vergleichstabelle für die Klassen String und StringBuilder	Java Basics - Anfänger-Themen	1	24. Jan 2014
X	[SUCHE]Mitentwickler	Java Basics - Anfänger-Themen	10	20. Jan 2014
P	Methoden suche funktion die char wert ausgibt wenn man numerischen wert und radix angibt	Java Basics - Anfänger-Themen	1	14. Jan 2014
D	Binare Suche	Java Basics - Anfänger-Themen	1	13. Jan 2014
C	Erste Schritte Bereich angeben bzw Fehler Suche	Java Basics - Anfänger-Themen	6	10. Dez 2013
L	Suche in dreidimensionalen Arrays	Java Basics - Anfänger-Themen	3	1. Dez 2013
P	Lineare Suche im Array	Java Basics - Anfänger-Themen	5	17. Sep 2013
X	verschachtelte suche	Java Basics - Anfänger-Themen	8	28. Jan 2013
T	Sortieren/Suche klappt nicht ganz (String Array)	Java Basics - Anfänger-Themen	2	16. Dez 2012
S	Erste Schritte Suche nach einem guten JAVA-Buch (Definition im Thread)	Java Basics - Anfänger-Themen	6	27. Sep 2012
G	suche den Begriff & wie programmiere ich sowas (ich ändere den Titel dann)	Java Basics - Anfänger-Themen	2	22. Sep 2012
M	suche/brauche Links über rein GUI Beispielprogramme	Java Basics - Anfänger-Themen	4	31. Aug 2012
I	Suche Component welches Map ähnelt	Java Basics - Anfänger-Themen	11	10. Aug 2012
D	Binäre Suche für Integerarray in rekursiver Funktion	Java Basics - Anfänger-Themen	5	13. Jul 2012
G	Erste Schritte Suche nach Zeichenkette	Java Basics - Anfänger-Themen	26	25. Mai 2012
	Suche brauchbares I18N Lib	Java Basics - Anfänger-Themen	4	28. Apr 2012
J	Suche Tipps zum erstellen von Algorithmen	Java Basics - Anfänger-Themen	5	3. Mrz 2012
D	Artikel-Suche implementieren	Java Basics - Anfänger-Themen	7	22. Feb 2012
S	suche nach eclipse plug-in	Java Basics - Anfänger-Themen	3	21. Jan 2012
W	Compiler-Fehler Binäre Suche	Java Basics - Anfänger-Themen	2	15. Dez 2011
K	Suche geeignete Code-Beispiele	Java Basics - Anfänger-Themen	4	2. Dez 2011
P	Suche Java Programme mit gutem/anfängertauglichem Quellcode	Java Basics - Anfänger-Themen	8	27. Nov 2011
I	Suche Compiler in Java SDK	Java Basics - Anfänger-Themen	5	13. Nov 2011
R	String in Strig Suche	Java Basics - Anfänger-Themen	2	6. Nov 2011
M	Suche Beispiel-Spiel	Java Basics - Anfänger-Themen	3	31. Okt 2011

Suche Regex Ausdruck für HTML

ronin77

Mitglied

faetzminator

Gesperrter Benutzer

ronin77

Mitglied

Dow Jones

Gast

faetzminator

Gesperrter Benutzer

Dow Jones

Gast

faetzminator

Gesperrter Benutzer

Dow Jones

Gast

ronin77

Mitglied

Dow Jones

Gast

Michael...

Top Contributor

faetzminator

Gesperrter Benutzer

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen