HTML Seite Parsen, und bestimmten Text extrahieren

Status
Nicht offen für weitere Antworten.

Prinz

Mitglied
Ich habe folgendes problem:

Ich habe eine Webseite, und muss Textdaten rauslesen. Die Webseite ist leider ken xhtml, sondern nur normales HTML, wenn sie auch gleich strukturiert aussieht.

Bsp:
Code:
<div class="formrow">

						<div class="formcolumn1">
							<label class="highlightsmall">
								letztes buch							
							</label>
						</div>
						<div class="formcolumn2">
							<label class="midrange">
								
									[url="/web/search/detailSearch.do?method=search&reset=true&searchLastBook=Max+Geht+Zur+Schule..."]Max Geht Zur Schule...[/url]
								
							</label>						
						</div>

					</div>
									
					
					
					<div class="formrow">
						<div class="formcolumn1">
							<label class="highlightsmall">
								letzter kino-film							
							</label>
						</div>
						<div class="formcolumn2">
							<label class="midrange">

								
									[url="/web/search/detailSearch.do?method=search&reset=true&searchLastFilm=Bibi+Blocksberg..."]Bibi Blocksberg...[/url]
								
							</label>						
						</div>
					</div>



Was ich bisher geschafft habe ist, den Text zu extrahieren mit dem Jericho HTML Parser.
Das ist jetzt aber nur eine String mit allen wörtern in den text:

Code:
anbieten freundschaft anbieten nachricht senden nachricht senden sperren sperren petzen! petzen! über wen kenne ich holy giorty AlinaH Flo79ms tschitschi holy daten daten tagebuch tagebuch gästebuch gästebuch freunde freunde fotos fotos mitglied seit 24.08.2005 letzte anmeldung am 15.08.2006 ich bin frau meine homebase wien alter/sternzeichen 31/krebs familienstand in einer beziehung da komme ich her baden - -Austria dialekt althochdt bis hin z.d.niederungen, ok...none ;o) so wohne ich mit hund und katz, und meinem liebsten damit verdiene ich mein geld lassen sie uns durch wir sind arzt ex-firmen uiuiui ... YITS ex-schulen also @first marienkindergarden, dann pfarrschule, dann bionthek, und zu guter letzt no die knödl mitglied bei gesangsverein'badewanne' und fotoklub'holy-teffer' meine hot-spots im garten vor dem griller, und bei den nachbarn mein haustier wer brav bei der sache ist, weiß das schon meine fahrzeuge ich habe 2!!! fahrräder ... ;o) ned schlecht herr specht ... oder?!? meine sportarten schwimmen tauchen windsurfen skifahren snowboarden jogging kampfsport meine hobbys kochen garten spazieren gehen basteln sammeln spielen malen töpfern fotografieren tiere lieblingslied time of your life - green day letztes buch Schiffbruch mit Tiger letzter kino-film Madagaskar lieblingsserie(n) im tv scrups letzter urlaub gargano - vieste zum surfen wen willst du schon immer mal treffen paul newman ... nur eine nacht ... mal ausgiebigst alles besprechen ;o) mein tipp für euch turn on, tune in, cop out ich bin fan von



Ich brauche konkret die String zu Leiblingslied, Letzter Kinofilm......

der Rest ist eigentlich unrelevant.

Wie würdet ihr da vorgehen?
 

KSG9|sebastian

Top Contributor
Ich würd den Typen verprügeln der von mir verlangt ne HTML Seite nach irgendwelchem beliebig langen, beliebig aussehenden Text zu parsen.
Oder ich würd den Typen anspringen der keine sinnvolle Schnittstelle sondern ne HTML-Datei bereitstellt :)
 
Status
Nicht offen für weitere Antworten.
Ähnliche Java Themen
  Titel Forum Antworten Datum
B JAXB und HTML XML & JSON 1
T HTML mit Hilfe Jsoup einlesen XML & JSON 11
C javascript in .html Funktioniert, in .xhtml nicht mehr XML & JSON 0
M parsen von realen HTML-WEB-Seiten XML & JSON 1
P HTML XPath XML & JSON 1
K Einlesen eines Parameters aus HTML-Datei XML & JSON 4
1 Html tabelle auslesen??? XML & JSON 6
Airwolf89 HTML Datei mit SAXBuilder laden hängt sich auf XML & JSON 4
K docBook XSLT: HTML Code Snippet in Erzeugte HTML Dokument einfügen XML & JSON 9
D Wie XML Datei einlesen und HTML entities übernehmen? XML & JSON 3
R Problem bei: XML und XSL zu HTML XML & JSON 2
T Möchte JSP Code in Attribut eines HTML Tags hinein generieren XML & JSON 3
slawaweis XML Prettyprinter zu HTML XML & JSON 3
S Typsicherer HTML-Parser XML & JSON 5
S HTML Parser XML & JSON 2
F Probleme beim html parsen mit tagsoup XML & JSON 4
M HTML Quellcode verarbeiten XML & JSON 4
J DOM zu HTML XML & JSON 3
S DOM Parsen Problem mit HTML Sonderzeichen XML & JSON 4
A aus xml --> html Problem XML & JSON 3
M HTML-Entities XML & JSON 4
M Suche HTML-API XML & JSON 3
G Servlet mittels XSL in HTML konvertieren XML & JSON 5
K html -> cyberneko -> xml -> jdom . XML & JSON 3
S HTML mit dom4j parsen? XML & JSON 2
M TextContent eines XML-Elements enthält HTML-Tags . was nun XML & JSON 2
L mit Java eine HTML-Datei erstellen XML & JSON 3
B html->xslfo->pdf XML & JSON 5
G HTML in PDF umwandeln XML & JSON 9
J Exception bei "vorselektiertem" HTML XML & JSON 3
C HTML-Befehle per Java entfernen XML & JSON 7
P HTML-Sting in JDOM XML & JSON 7
G HTML -> XML XML & JSON 2
A html-File nach txt-File konvertieren XML & JSON 15
F XML Datei als HTML? XML & JSON 4
flashfactor HTML in XML XML & JSON 3
FsMarine HTML to PDF Konventieren XML & JSON 6
P HTML mit JDOM erstellen und in JEditorPane zeigen XML & JSON 4
B JDom + HTML XML & JSON 2
B DOM oder HTML File drucken "wie ein Browser es zeigen w XML & JSON 3
E Wie kann ich ein XSD-Schema in einer JSP-Seite verwenden? XML & JSON 7
E Wie kann ich den XML-Inhalt mit dem Klicken auf den Hyperlink (a-Tag) auf der nächsten Seite ansehen XML & JSON 62
P PHP-Seite anfragen, aber nicht darstellen XML & JSON 5
MiMa Buch Metadaten aus XML Datei parsen XML & JSON 48
S XML Document Parsen und Ausgeben mit Suchfunktion XML & JSON 21
MiMa parsen mit regex -> ein schnelles Ende XML & JSON 10
K Beim Parsen einer XML-Datei Connection timed out XML & JSON 4
F Parsen von Daten aus einer Homepage XML & JSON 6
G Langsam beim SAX-Parsen - woran liegts? XML & JSON 2
C Parsen des XML-Streams mit SAX XML & JSON 3
M XML Datei Parsen XML & JSON 4
D SAX parsen - Wie? XML & JSON 11
S XML Parsen und Werte zwischenspeichern XML & JSON 2
K Kurze XML Datei Parsen XML & JSON 5
whitenexx Problem beim parsen von Facebook XML XML & JSON 3
J Comments in XML parsen XML & JSON 3
H Nicht wohlgeformtes XML mit SAX parsen XML & JSON 2
M XML Parsen JDOM NullPointerEcxeption XML & JSON 7
Z XML parsen - Element mit Werten XML & JSON 2
ruutaiokwu xml nur bis auf eine bestimmte ebene parsen mit javax.xml... XML & JSON 5
L [SAX] Geschachtelte XML Datei parsen XML & JSON 3
R XML in UTF-8 mit SAX parsen XML & JSON 9
O Parsen einer XML mit JDOM ohne Doctype Declaration XML & JSON 2
M Probleme beim Parsen eines gefilterten XML-Dokuments XML & JSON 6
Semox Kann JUnit XML Parsen? XML & JSON 2
L Reihenfolge beim xml Datei parsen einhalten? XML & JSON 8
L xml Datei parsen ohne End-Tag XML & JSON 6
T RSS-Feed parsen und in Datenbank speichern XML & JSON 6
B XML parsen XML & JSON 3
H XML parsen und unbekannten Namespace zurückgeben XML & JSON 5
L invalide xml document parsen?! XML & JSON 2
ABstraCT XML properties am einfachsten parsen. XML & JSON 2
U xmi parsen über emf XML & JSON 10
S XML-Schema einlesen um parsen zu erleichtern? XML & JSON 2
T Problem beim Parsen von Attribut xmlns="urn:com:test&qu XML & JSON 6
P XMLGregorianCalender parsen XML & JSON 4
M Datei parsen XML & JSON 5
X XML File auslesen/parsen u. in ne Hashmap speichern XML & JSON 2
Saxony unbekannte XML Datei parsen und ausgeben XML & JSON 10
P "Formatierungs-Tags" parsen XML & JSON 3
M Attribute parsen XML & JSON 6
R Parsen einer XML ohne Validierung XML & JSON 2
D XML Datei innerhalb einer JAR Datei parsen XML & JSON 2
M Xerces -Parsen mit einer externen Schemadatei geht nicht XML & JSON 2
L bz2-Datei parsen XML & JSON 9
K XML parsen Whitespaces XML & JSON 2
I XML-String mit SAX parsen ? XML & JSON 2
M Object in XML parsen XML & JSON 2
byte Probleme beim Parsen von XHTML-Datei XML & JSON 4
X xml und xsl parsen mit xerces XML & JSON 8
W Xml-String parsen XML & JSON 2
W root element parsen,Hilfe! XML & JSON 5
F Gibt es Möglichkeiten Deutsche Sätze zu parsen ? XML & JSON 2
A Auf der Suche nach Bibliotheken oder wie parsen? XML & JSON 15
S XML Datei mit Schemafehler parsen XML & JSON 14
R StreamSource parsen ! XML & JSON 8
R RSS parsen XML & JSON 2
K XML Datei parsen XML & JSON 4

Ähnliche Java Themen

Neue Themen


Oben