HTML oder nicht? Das ist hier die Frage.

Werner · 23. Apr 2007

Hallo,

ich schreibe gerade an einem WebCrawler (bin kein Anfänger) und hänge an folgendem Problem:

Ich lese über HttpURLConnection per URL.openConnection() den Inhalt einer URl ein und parse
dann die Webseite. Soweit ist alles trivial. Ihr wisst bestimmt schon was kommt :roll:
Da ich mit URI- und URL-Objekten arbeite, um z.B. die Relativen- in Ablotute-URLs aufzulösen,
bin ich darauf angewiesen, dass der Parser auch wirklich eine HTML-Seite als "Futter" bekommt.

Im WEB ist es wohl so, dass bei einem Content-Type text/html etc in 98% der Fällen
eine HTML Seite zu erwarten ist. Nur, was ist wenn der Webserver ein z.B. reines
Perl-Script in Textform zurück-liefert. Das bekommt dann mein Parser als
vermeintliche HTML-Datei und quittiert mir das zurecht mit einer Exception bzw.
mit fehlerhaften Ergebnissen. Kurz und gut, hier meine Frage:

Wie kann ich feststellen, um welches Datei-Format es sich von der von mir über einen URL
angeforderte Webresource wirklich handelt? ???:L Also woran kann ich eine HTML-Seite erkennen.
Z.B: kann man ja schlecht eine PDF durch einen HTML-Parser jagen.... lol

Vielen Dank für Eure Hilfe!!

PS:
Bitte kommt mir aber nicht mit: "Suche doch nach "<html..." oder "<!DOCTYPE HTML " etc..." Leider sieht die
Wirklichkeit erschreckend aus und es fällt mir ein Zitat von Google ein: "Webmaster sind nicht in der
Lage syntaktisch korrektes HTML zu schreiben" Sicher, 90% maches es vielleicht richtig, aber was ist mit
den restlichen 10%? Die muss ein Parser auch verdauen und darin liegt das wirkliche Problem.

Wildcard · 23. Apr 2007

Zunächst mal der Content-Type:
http://java.sun.com/javase/6/docs/api/java/net/URLConnection.html#getContentType()
Wenn der text/html liefert und dein Parser auf die Nase fliegt ist entweder der Parser falsch, oder es ist kein html.

"Webmaster sind nicht in der
Lage syntaktisch korrektes HTML zu schreiben" Sicher, 90% maches es vielleicht richtig, aber was ist mit
den restlichen 10%

Die Annahme das 90% der Webseiten valides HTML darstellen ist völlig illusorisch. Schick einfach mal eine beliebige Seite durch den W3 Validator.

Werner · 23. Apr 2007

Hi,

"Die Annahme das 90% der Webseiten valides HTML darstellen ist völlig illusorisch. Schick einfach mal eine beliebige Seite durch den W3 Validator."

Ja, da hast Du wohl Recht. Es sieht NOCH schlimmer aus. :?
Eigentlich darf man keinem Ergebnis trauen. Aber gibt es den nun
so eine Art HTML-Validator, der mir sagt, ob es sich um eine HTML-Seite
handelt oder nicht??? Und ich meine jetzt nicht so einen Syntax-Validator
wie den vom W3C.

Gruß, Werner

Wildcard · 23. Apr 2007

Werner hat gesagt.:
Aber gibt es den nun
so eine Art HTML-Validator, der mir sagt, ob es sich um eine HTML-Seite
handelt oder nicht???

Was soll der machen? Schätzen?
Geh davon aus das es sich um html handelt und wenn dein Parser auf die Nase fliegt, weißt du das etwas nicht stimmt.

AlArenal · 23. Apr 2007

Da wären wir auch wieder bei meinem Thema mit den >100 Validierungsfehlern pro Forum-Seite

	Titel	Forum	Antworten	Datum
W	HTML Code, Umlaute werden nicht richtig dargestellt	Java Basics - Anfänger-Themen	7	26. Aug 2014
D	Interpreter-Fehler JavaApplet läuft in der IDE aber nicht im HTML Dokument	Java Basics - Anfänger-Themen	9	4. Feb 2011
	HTML Datei nicht von Java Lesbar	Java Basics - Anfänger-Themen	8	8. Jun 2009
	HTML code geht nicht bei JEditorPane	Java Basics - Anfänger-Themen	5	19. Okt 2008
W	Javadoc HTML erzeugen mit allen dependency	Java Basics - Anfänger-Themen	11	28. Dez 2023
M	html-seite drucken (gerendert)	Java Basics - Anfänger-Themen	3	27. Aug 2023
I	HTML Code säubern	Java Basics - Anfänger-Themen	4	7. Dez 2021
B	HTML File einlesen inkl. Bilder?	Java Basics - Anfänger-Themen	2	9. Okt 2019
B	HTML Datei einlesen und HTML Code in String wandeln	Java Basics - Anfänger-Themen	19	6. Aug 2019
B	HTML Code in XML speichern	Java Basics - Anfänger-Themen	3	22. Apr 2019
B	HTML Code / Seite auslesen und JAVA Objekte erstellen	Java Basics - Anfänger-Themen	12	7. Jan 2019
K	Erstes kleines Spieleprojekt - Java GUI in HTML einbinden	Java Basics - Anfänger-Themen	3	6. Okt 2018
B	String nach HTML formatieren	Java Basics - Anfänger-Themen	9	22. Sep 2018
S	HTML-Quelltext hinter HTTPS	Java Basics - Anfänger-Themen	1	5. Sep 2018
J	Input/Output Input Buttons Html mit JSP	Java Basics - Anfänger-Themen	3	20. Jul 2018
E	HTML in Java einbinden oder JavaScript?	Java Basics - Anfänger-Themen	5	22. Dez 2017
D	Mit Java HTML bzw Javascript auslesen	Java Basics - Anfänger-Themen	1	21. Dez 2017
G	Servlet - externe HTML (URL) auslesen	Java Basics - Anfänger-Themen	1	4. Nov 2017
S	Text aus einer HTML Datei auslesen	Java Basics - Anfänger-Themen	1	16. Mai 2017
	Input/Output Umlaute in generierter HTML-Datei	Java Basics - Anfänger-Themen	7	20. Mrz 2017
N	Status-Log - HTML	Java Basics - Anfänger-Themen	12	20. Mrz 2017
C	Methoden Welche JSoup Methoden Und Parameter für diese HTML Tags	Java Basics - Anfänger-Themen	4	22. Dez 2016
I	Meta Tags vergleichen mit Html Vorgabe	Java Basics - Anfänger-Themen	8	22. Nov 2016
B	HTML Code drucken	Java Basics - Anfänger-Themen	4	11. Aug 2016
D	HTML Manipulation Navigation	Java Basics - Anfänger-Themen	1	3. Mrz 2016
Z	Html Element aus der Webseite auslesen	Java Basics - Anfänger-Themen	1	17. Feb 2016
D	Erste Schritte HTML aus JEditorPane drucken	Java Basics - Anfänger-Themen	5	11. Jan 2016
M	Fragen zum Auslesen von HTML Seiten	Java Basics - Anfänger-Themen	5	29. Nov 2015
M	Java und Html	Java Basics - Anfänger-Themen	4	19. Nov 2015
I	HTML Code in Bild (transparent) konvertieren	Java Basics - Anfänger-Themen	0	10. Nov 2015
I	Watermark erstellen mit HTML in Bild?	Java Basics - Anfänger-Themen	7	4. Nov 2015
T	Ausgabe in HTML :(	Java Basics - Anfänger-Themen	19	14. Okt 2015
F	HTML Datei in .jar speichern und abändern	Java Basics - Anfänger-Themen	2	12. Jul 2015
S	mit Java HTML Button drücken "lassen"	Java Basics - Anfänger-Themen	8	2. Jun 2015
M	Erste Schritte Java Applet - HTML Seiten auslesen und in Access Datenbank schreiben?	Java Basics - Anfänger-Themen	15	13. Feb 2015
T	HTML-Inputbox ansteuern	Java Basics - Anfänger-Themen	4	10. Dez 2014
I	HTML Tabelle nur so lange erzeugen bis Höhe erreicht	Java Basics - Anfänger-Themen	9	7. Dez 2014
I	HTML in String wandeln?	Java Basics - Anfänger-Themen	1	2. Nov 2014
D	javacode durch Html ausfuehren	Java Basics - Anfänger-Themen	13	30. Sep 2014
C	Html in einem JEditorPane anzeigen	Java Basics - Anfänger-Themen	2	18. Jun 2014
I	jar-Datei in HTML einbinden	Java Basics - Anfänger-Themen	6	12. Jan 2013
O	HTML -> BBCode Parser?	Java Basics - Anfänger-Themen	3	8. Jan 2013
O	Methode in andere Klasse verlegt, "auslesen" einer HTML Seite verschnellert - Problem.	Java Basics - Anfänger-Themen	4	8. Jan 2013
V	Umlaute beim Parsen einer HTML Seite	Java Basics - Anfänger-Themen	4	6. Jan 2013
C	Java Applet in html. Pong - old school Spiel	Java Basics - Anfänger-Themen	10	11. Dez 2012
J	Methode um eine HTML-Datei zu öffnen	Java Basics - Anfänger-Themen	10	22. Nov 2012
H	Schnell HTML-Tags finden	Java Basics - Anfänger-Themen	5	9. Nov 2012
H	Welcher Html-Parser?	Java Basics - Anfänger-Themen	8	6. Sep 2012
G	Probleme beim HTML auslesen	Java Basics - Anfänger-Themen	6	31. Aug 2012
J	Html zugriff - POST Request/Response	Java Basics - Anfänger-Themen	4	23. Aug 2012
A	HTML-Code auslesen und mit einem Wert in der property-Datei vergleichen	Java Basics - Anfänger-Themen	2	9. Aug 2012
Z	Input/Output HTML-Seite einlesen	Java Basics - Anfänger-Themen	4	8. Aug 2012
H	Interface JTextPane html formatiert kopieren	Java Basics - Anfänger-Themen	2	29. Jul 2012
L	Applet soll Html-File öffnen	Java Basics - Anfänger-Themen	2	10. Jul 2012
L	NetBeans Applet in html	Java Basics - Anfänger-Themen	4	9. Jul 2012
H	Java Server/Client, HTML Seite anzeigen	Java Basics - Anfänger-Themen	2	21. Mai 2012
D	Wie den HTML-Teil des Chat Tutorials aus dem FAQ-Bereich starten?	Java Basics - Anfänger-Themen	5	21. Mai 2012
C	Link wie bei HTML	Java Basics - Anfänger-Themen	7	2. Mai 2012
F	Methoden replaceAll (regex) HTML	Java Basics - Anfänger-Themen	3	12. Apr 2012
M	Mit Java eine HTML-Seite speichern	Java Basics - Anfänger-Themen	11	10. Apr 2012
C	Java in HTML einbinden	Java Basics - Anfänger-Themen	2	9. Apr 2012
N	Website HTML mit JavaScript abrufen	Java Basics - Anfänger-Themen	9	30. Jan 2012
R	JSON - Ausgabe als HTML mit gson	Java Basics - Anfänger-Themen	6	14. Dez 2011
R	Suche Regex Ausdruck für HTML	Java Basics - Anfänger-Themen	11	5. Dez 2011
A	JEditorPane + html -> java.io.IOException: invalid url	Java Basics - Anfänger-Themen	4	16. Okt 2011
S	Lightbox Script vs. Taco HTML Script	Java Basics - Anfänger-Themen	4	31. Aug 2011
R	Pattern bzw. Regex HTML-Code	Java Basics - Anfänger-Themen	10	8. Aug 2011
S	String mit ASCII/HTML Zeichen darstellen	Java Basics - Anfänger-Themen	10	1. Jun 2011
S	HTML Regularer Expression	Java Basics - Anfänger-Themen	20	31. Mai 2011
S	regulärer Ausdruck HTML	Java Basics - Anfänger-Themen	5	26. Mai 2011
D	Html Formular auswerten	Java Basics - Anfänger-Themen	8	26. Mai 2011
P	Java Object das eine HTML Datei repräsentiert	Java Basics - Anfänger-Themen	19	12. Mai 2011
	Einlesen von HTML-Source	Java Basics - Anfänger-Themen	6	19. Apr 2011
	Ein regulärer Ausdruck für HTML-Sonderzeichen	Java Basics - Anfänger-Themen	3	4. Apr 2011
H	html-Text mit Formatierung in String speichern	Java Basics - Anfänger-Themen	4	28. Mrz 2011
S	Java und HTML- Drop Down- Mehrfachauswahl	Java Basics - Anfänger-Themen	3	1. Mrz 2011
A	execute jar from html	Java Basics - Anfänger-Themen	6	7. Feb 2011
	Html Code durchsuchen	Java Basics - Anfänger-Themen	2	10. Jan 2011
T	Servlet HTML-Formular	Java Basics - Anfänger-Themen	9	6. Dez 2010
	HTML Formular mit Java ausfüllen und absenden	Java Basics - Anfänger-Themen	9	19. Nov 2010
P	HTML <input> Feld in einem JLabel auslesen	Java Basics - Anfänger-Themen	4	20. Okt 2010
C	einfacher Link zu *.html Datei möglich?	Java Basics - Anfänger-Themen	4	11. Okt 2010
V	javascript und HTML: hoch 2	Java Basics - Anfänger-Themen	2	18. Sep 2010
M	index.html fehlt	Java Basics - Anfänger-Themen	12	7. Sep 2010
3	Eine HTML Datei in eine Java Datei umschreiben	Java Basics - Anfänger-Themen	23	6. Sep 2010
	Applet in HTML einbinden	Java Basics - Anfänger-Themen	3	29. Aug 2010
A	Java in Html einbinden	Java Basics - Anfänger-Themen	2	17. Aug 2010
M	Frage zum Aufruf eines Applets aus einer HTML - Datei	Java Basics - Anfänger-Themen	3	17. Aug 2010
	Auf HTML-Dateien in einer Jar zugreifen	Java Basics - Anfänger-Themen	9	13. Aug 2010
D	HTML Text von jButton disablen	Java Basics - Anfänger-Themen	2	10. Aug 2010
I	CSV Datei auf HTML Seite hochladen und in DB laden	Java Basics - Anfänger-Themen	9	9. Aug 2010
K	html to pdf	Java Basics - Anfänger-Themen	6	7. Jul 2010
D	String aus Html (sonderfall)	Java Basics - Anfänger-Themen	9	19. Jun 2010
F	html editor	Java Basics - Anfänger-Themen	5	12. Mai 2010
A	html parser	Java Basics - Anfänger-Themen	5	12. Apr 2010
G	HTML Seite generieren	Java Basics - Anfänger-Themen	2	2. Apr 2010
S	Text aus HTML Datei in TXT Datei	Java Basics - Anfänger-Themen	19	29. Mrz 2010
U	HTML-String zusammenbauen	Java Basics - Anfänger-Themen	4	21. Mrz 2010
P	Datentypen HTML Dokument speichern (Netbeans)	Java Basics - Anfänger-Themen	10	25. Feb 2010
S	kreative Schlaue funktion für optionsfeld (html) gesucht...	Java Basics - Anfänger-Themen	4	24. Feb 2010

HTML oder nicht? Das ist hier die Frage.

Werner

Gast

Wildcard

Top Contributor

Werner

Gast

Wildcard

Top Contributor

AlArenal

Top Contributor

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen