HTML-Code von Webseite über Browser oder Console auslesen??

magician · 2. Sep 2012

Ich schreibe gerade ein Java Programm, in dem ich (wegen der immer noch nicht bereitgestellten API) auf den HTML-Text einer Webseite zugreifen möchte. Wie man das normalerweise macht, ist mir klar. Das Problem ist nur, dass diese Seite sich nicht automatisch auslesen lässt. Wenn ich die URL aus meinem Java-Programm öffne, bekomme ich nur ein "Client refused" zurückgeliefert (bei anderen URLs funktioniert es dagegen fehlerfrei). Rufe ich die besagte URL über meinen Webbrowser auf, wird sie aber richtig angezeigt.

Kann ich das irgendwie umgehen? Was zum Beispiel funktioniert, ist ein Konsolenaufruf aus dem Java-Programm heraus, welches die Seite automatisch im Browser öffnet.

Java:

Runtime.getRuntime().exec("open http://www.google.de");

Jetzt ist meine Frage, ob ich von dort irgendwie den Quellcode automatisch in meinem Java-Programm auslesen lassen kann. Aus dem Browser exportieren? Oder kann ich den HTML-Code auf der Console anzeigen lassen und von dort auslesen. Oder kann ich es gar auf einem anderen Wege umgehen?

Ich hoffe meine Frage ist nicht zu speziell und jemand hilft mir weiter - ich wäre sehr dankbar.

Gast2 · 2. Sep 2012

Client refused

Das bedeutet soviel wie, dass der Server den USER_AGENT Header prüft und deinen wohl nicht akzeptiert. Standardmäßig steht da irgendwas von Java drin.
Den kannst du aber anpassen indem du die entsprechen Property in URLConnection setzt:
URLConnection (Java Platform SE 6)

magician · 2. Sep 2012

Eike, ich musste zwar erst googlen, was du denn genau meinst und was ich dann da eintrage, aber jetzt läuft es.

Vielen Dank für den superschnellen Support

Gast2 · 2. Sep 2012

Schön dass es dir geholfen hat.
Wenn du jetzt noch den entsprechenden Codeschnipsel postest, dann hilfts anderen vielleicht auch noch weiter

magician · 2. Sep 2012

Java:

URL url = new URL("http://www.desired-domain.com");
HttpURLConnection con = (HttpURLConnection) url.openConnection(); 
con.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-GB; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13 (.NET CLR 3.5.30729)");
BufferedReader br = new BufferedReader(new InputStreamReader(con.getInputStream()));

while (br.ready())
{
      System.out.println(br.readLine());
}
 
br.close();

Gibt den HTML-Code von http://www.desired-domain.com auf der Konsole aus. Zeile 3 war Eikes Ergänzung...

OSBI_Fan · 2. Sep 2012

Hallo magician,

um den Quellcode einer Webseite automatisch auszulesen, könntest Du Dir auch eine offline Version mit einem Mirror-Tool erstellen.

z.B: HTTrack Website Copier - Free Software Offline Browser (GNU GPL)

Grüße
OSBI_Fan

OSBI = Open Source Business Intelligence

	Titel	Forum	Antworten	Datum
	Website HTML Code von HTTPS URL laden	Allgemeine Java-Themen	0	13. Okt 2017
	HTML Code decodieren	Allgemeine Java-Themen	2	22. Mrz 2016
A	jEditorPane Html Datei öffnen (code)	Allgemeine Java-Themen	3	18. Dez 2012
P	Aktuellen HTML Code auslesen (von JS manipuliert)	Allgemeine Java-Themen	3	8. Okt 2012
S	Robuste Methode um Text von HTML code zu extrahieren..?	Allgemeine Java-Themen	6	27. Jul 2012
G	Code (zb html) als string speichern	Allgemeine Java-Themen	2	28. Apr 2008
G	HTML-Code aus dem Internet downloaden	Allgemeine Java-Themen	3	29. Jan 2008
G	HTML Code aus String mittels REGEX entfernen	Allgemeine Java-Themen	2	24. Nov 2007
R	bestimmten HTML Code per JAva lesen lassen	Allgemeine Java-Themen	7	17. Mai 2007
O	Regex Texte zwischen html code	Allgemeine Java-Themen	4	15. Feb 2007
U	HTML Code aus Browser auslesen?	Allgemeine Java-Themen	5	15. Dez 2006
G	html-code an drucker senden	Allgemeine Java-Themen	10	5. Jun 2006
G	drucken von html-code	Allgemeine Java-Themen	2	24. Mai 2006
O	Mit jsoup Text aus HTML-Datei rausgrabben	Allgemeine Java-Themen	29	2. Jul 2024
S	Bookmark HTML Datei einlesen, alle Links erhalten und manche editieren..? (aktuell JSoup)	Allgemeine Java-Themen	4	7. Jul 2022
S	HTML einer Webseite 1:1 so bekommen wie es auch der Browser anzeigt?	Allgemeine Java-Themen	14	30. Jun 2022
C	Parsen einer sich updatenden Html mithilfe von jsoup	Allgemeine Java-Themen	4	27. Jan 2022
I	HTML / XHTML Seite nach Excel exportieren. Suche Lib	Allgemeine Java-Themen	12	30. Jul 2021
F	Kennt ihr eine Library um 2 HTML Seiten zu diffen?	Allgemeine Java-Themen	8	20. Jul 2021
K	HTMLEditor HTML Text in Rich Text umwandeln	Allgemeine Java-Themen	14	5. Apr 2021
N	Value Wert aus HTML-Button mittels thymeleaf spring an java übergeben	Allgemeine Java-Themen	2	26. Nov 2020
N	Lottowebsite programmieren mittels Java, HTML,....	Allgemeine Java-Themen	7	25. Nov 2020
S	HTML den ich von einer URL hole nicht identisch mit dem HTML im Browser	Allgemeine Java-Themen	1	3. Apr 2020
M	Html Seite auslesen	Allgemeine Java-Themen	16	16. Sep 2018
L	HTML Formular ausführen	Allgemeine Java-Themen	1	29. Jul 2017
J	Auslesen Daten Java/HTML	Allgemeine Java-Themen	15	12. Dez 2016
A	Applet in HTML einbinden	Allgemeine Java-Themen	1	16. Nov 2016
	JSoup - HTML Tag entfernen	Allgemeine Java-Themen	1	30. Sep 2016
I	HTML einer Website auslesen liefert nur head	Allgemeine Java-Themen	6	3. Mai 2016
	Mehrere html seiten einer Homepage einlesen und als Textdatei ausgeben	Allgemeine Java-Themen	14	23. Aug 2015
P	HTML Text bearbeiten	Allgemeine Java-Themen	1	28. Okt 2014
A	Probleme beim auslesen von Quelltext (HTML)	Allgemeine Java-Themen	5	25. Mai 2014
	String aus html einlesen	Allgemeine Java-Themen	2	20. Apr 2014
	Substring einer HTML Seite will nicht	Allgemeine Java-Themen	5	16. Mrz 2014
S	Applet in html laden; InvocationTargetException,.. nur warum ?	Allgemeine Java-Themen	0	29. Jan 2014
R	HTML Tabelle durchsuchen	Allgemeine Java-Themen	3	10. Jan 2014
L	Erste Schritte Eclipse und Lokal funktioniert - in HTML nicht!	Allgemeine Java-Themen	2	5. Feb 2013
T	Keyword Highlighting in HTML	Allgemeine Java-Themen	5	9. Jan 2013
B	Best Practice HTML Output Optimal implementieren	Allgemeine Java-Themen	3	7. Jan 2013
Y	Applet/Html - Wie Java-Methode aufrufen, die einen Parameter erwartet?	Allgemeine Java-Themen	3	21. Nov 2012
H	HTML Parsing errors	Allgemeine Java-Themen	9	16. Okt 2012
S	Bekomme mit Scanner und URL keine Html-Seite ausgelesen	Allgemeine Java-Themen	3	12. Jun 2012
C	JEditorPane langsam großes HTML	Allgemeine Java-Themen	8	10. Mai 2012
M	html aus aktuellem Browserfenster mitlesen lassen	Allgemeine Java-Themen	5	9. Apr 2012
G	Kann HTML Datei nicht lesen	Allgemeine Java-Themen	3	4. Apr 2012
S	HTML-Quelltext nach bestimmter Stelle durchsuchen	Allgemeine Java-Themen	2	27. Mrz 2012
B	HTML Tags in Strings umwandeln	Allgemeine Java-Themen	4	24. Mrz 2012
S	BufferedReader/PrintWriter an einer HTML	Allgemeine Java-Themen	6	19. Feb 2012
T	HTML Tag Position mittels Pattern ermitteln	Allgemeine Java-Themen	7	8. Feb 2012
C	Attribute aus HTML Tags auslesen	Allgemeine Java-Themen	6	18. Jan 2012
M	Wicket Html	Allgemeine Java-Themen	2	16. Jan 2012
S	Fehler beim ausführen des HTML	Allgemeine Java-Themen	7	15. Jan 2012
S	Fehler Applet-HTML	Allgemeine Java-Themen	5	14. Jan 2012
B	suchfunktion in html integrieren	Allgemeine Java-Themen	3	30. Nov 2011
	Wieso ist Javadoc mit Html Tags?	Allgemeine Java-Themen	47	4. Sep 2011
P	RegEx mit HTML Parser für Java möglich?	Allgemeine Java-Themen	10	6. Jul 2011
B	RTF zu HTML	Allgemeine Java-Themen	3	4. Jul 2011
S	Von HTML-Seite den Titel bekommen	Allgemeine Java-Themen	2	29. Jun 2011
M	.jar in HTML einbinden	Allgemeine Java-Themen	5	12. Jun 2011
H	Kleiner HTML Parser (Facharbeit)	Allgemeine Java-Themen	11	8. Jun 2011
K	iText, HTML Einrückung im Document, aber nicht im Paragraph	Allgemeine Java-Themen	3	4. Jun 2011
J	Überprüfen ob URL eine HTML Datei referenziert	Allgemeine Java-Themen	4	1. Jun 2011
E	Zeilenumbruch html	Allgemeine Java-Themen	3	12. Mai 2011
J	URLs aus HTML Datei extrahieren	Allgemeine Java-Themen	2	14. Apr 2011
G	Swing JEditorPaneAppender (Output im HTML-Format)	Allgemeine Java-Themen	12	14. Apr 2011
W	Java Anwendung in HTML	Allgemeine Java-Themen	2	22. Feb 2011
M	Html Unit Whitespace-Problem	Allgemeine Java-Themen	4	8. Feb 2011
J	HTML-Sonderzeichen ersetzen	Allgemeine Java-Themen	2	6. Feb 2011
M	HTML-Websiten verarbeiten	Allgemeine Java-Themen	8	17. Jan 2011
A	Index Datei aus HTML-Dateien	Allgemeine Java-Themen	7	8. Jan 2011
S	HTML => DOM - Welcher Parser für meine Zwecke?	Allgemeine Java-Themen	3	7. Jan 2011
I	HTML Seite laden	Allgemeine Java-Themen	6	8. Nov 2010
W	Saubere Lösung für das Auslesen einer Html Seite (Mehrsprachigkeit)	Allgemeine Java-Themen	5	15. Okt 2010
M	String in Html Text umwandeln	Allgemeine Java-Themen	2	25. Sep 2010
S	Formatierungen aus HTML-Dokument übernehmen und in Word docx schreiben	Allgemeine Java-Themen	3	8. Sep 2010
E	HTML File mit Umlaute einlesen	Allgemeine Java-Themen	8	3. Sep 2010
T	HTML Parser	Allgemeine Java-Themen	7	1. Sep 2010
E	Regex HTML Tag und Inhalt löschen	Allgemeine Java-Themen	4	11. Aug 2010
S	Swing mit JEditorPane per HTML auf Bilder in JAR zugreifen.	Allgemeine Java-Themen	3	27. Jul 2010
S	Regulärer Ausdruck für HTML-Tag	Allgemeine Java-Themen	18	27. Jul 2010
H	Java Methode zum HTML encodieren/decodieren	Allgemeine Java-Themen	2	24. Jun 2010
	Bug in Copy-Funktion bei HTML-Editorpane?	Allgemeine Java-Themen	4	17. Mai 2010
M	JApplet einbinden in HTML	Allgemeine Java-Themen	19	3. Mai 2010
F	Problem mit regulären Ausdruck in Zusammenhang mit HTML	Allgemeine Java-Themen	8	7. Apr 2010
T	JavaScript aus HTML im JEditorPane ausführen?	Allgemeine Java-Themen	5	11. Mrz 2010
S	PDF nach HTML oder XML	Allgemeine Java-Themen	2	8. Mrz 2010
O	Tastendrücke in verstecktes HTML-Formular schreiben	Allgemeine Java-Themen	4	16. Feb 2010
D	Strings von HTML befreien	Allgemeine Java-Themen	17	23. Jan 2010
A	HTML-Seite aufrufen, drucken und zum Programm zurückkehren	Allgemeine Java-Themen	2	17. Jan 2010
E	Html tags entfernen optimieren	Allgemeine Java-Themen	12	24. Dez 2009
Q	API zum Verarbeiten von HTML	Allgemeine Java-Themen	4	23. Okt 2009
	PDF mit seiner Formatierung in HTML umwandeln	Allgemeine Java-Themen	15	22. Sep 2009
B	Java in HTML stellen	Allgemeine Java-Themen	11	14. Aug 2009
M	id aus HTML (Regex)	Allgemeine Java-Themen	7	5. Aug 2009
D	HTML mit Java verknüpfen	Allgemeine Java-Themen	2	29. Jul 2009
W	HTML-Pfad	Allgemeine Java-Themen	4	21. Jul 2009
G	HTML-Datei einlesen, Plain Text in Textfile speichern	Allgemeine Java-Themen	4	30. Jun 2009
A	HTML-Seite wieder schließen	Allgemeine Java-Themen	2	28. Jun 2009
E	JTidy html "hidden" Button drücken	Allgemeine Java-Themen	7	24. Jun 2009
	Regex zur Suche von "value-losen" Attributen in HTML Tags	Allgemeine Java-Themen	7	12. Jun 2009

HTML-Code von Webseite über Browser oder Console auslesen??

magician

Mitglied

Gast2

Gast

magician

Mitglied

Gast2

Gast

magician

Mitglied

OSBI_Fan

Mitglied

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen