Webseite auf Download-Links prüfen und Download starten?

hdi · 3. Feb 2009

Hi,

also erstmal weiss ich dass ich sowas in der Art schon mal vor ~1 Jahr gefragt hatte.
Leider habe ich es per SuFu nicht mehr gefunden, irgendwie ist das auch verbuggt (Wenn man nach
Autor "hdi" sucht kommen nicht nur meine Themen, sondern generell meine Beiträge)

Die Frage:

Bsp: Ich habe die Website www.tolledownloads.de, die eig. nur ne ganz normale HTML site ist mit
irgendwelchen Links. Die Links führen evtl auf andere Webseiten, oder bergen direkt ein Downloadbares File.

Ist es nun mit Java irgendwie möglich, mich zu dieser Website zu verbinden, sie auf ihre Links zu scannen, und
einen Link zu verfolgen (ggbflls über weitere Links), bis ich an einem Link angekommen bin, der direkt eine Datei
hergibt? (D.h. man kann auf der Seite auf den Link -> Rechtsklick -> Speichern unter und bekommt halt nicht
die HTML Seite, sondern eben eine "echte" Datei).
...und diese dann downloaden.

Falls das so pauschal nicht geht, wie könnte das eingeschränkt gehen? Bsp wenn ich genauere Informationen
über den Aufbau der Seite o.ä. habe, kann ich diese Infos in meinem Programm verwenden damit es klappt?

Im Zusammenhang damit frage ich mich, kann ich eine Website nach bestimmten Links durchsuchen, also
quasi nur den HTML Text durchsuchen? Sodass ich mich verbinde, und halt immer dort wo ich grad bin den
Site Content (wie gesagt: pures HTML, kein php oder jsp etc) überprüfe auf zB den Text "Download Eclipse",
und wenn ich nen Link mit diesem Teilstring gefunden habe, ihn verfolgen und Datei downloaden..

Das interessiert mich mal echt, weil es gibt viele Seiten im Inet die sich täglich updaten mit tollem Stuff,
alleine schon zB eine News-Seite,und deren Links alle nachverfolgen und den kompletten Content dann
als txt automatisch auf die Platte speichern.
Ich weiss es gibt Feeds dafür, aber wenn die Seite keine anbietet?

Naja, würd mich mal interessieren.

PS: Ich red hier erstmal nur von Seiten, wo man sich nicht einloggen muss oder sowas, also wo man direkten Zugriff auf Downloadlinks hat.

Danke

Gelöschtes Mitglied 5909 · 3. Feb 2009

urlconnection/httpclient + htmlparser

vom parser die links analysieren und dann ggf mit urlconnection/httpclient auf platte streamen

hdi · 3. Feb 2009

Okay danke erstmal, aber ich bin da absoluter Anfänger, ich hab über Inet noch nie was gemacht.
Ich glaub ich fang schon total falsch an, kann das sein:

Code:

	private URLConnection website;

	public Connect(String websiteURL) {
		try {
			this.website = new URL(websiteURL).openConnection();
			website.connect();
			
		} catch (IOException e) {
			e.printStackTrace();
		}

...weil egal welche Methode ich jetz auf website aufrufe, es kommt immer entweder ein Schrott raus
oder eine -1.

Ausserdem hab ich "HTMLParser" nicht gefunden in der API

Gelöschtes Mitglied 5909 · 3. Feb 2009

Mal ganz einfach so:

Code:

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;

public class HTTPConnection {
    
    
    public static void main( String[] args ) throws MalformedURLException, IOException {
        URLConnection connection = new URL("http://www.heise.de").openConnection();
        BufferedReader reader = new BufferedReader(new InputStreamReader(connection.getInputStream()));
        String line;
        while ((line = reader.readLine()) != null) {
            System.out.println(line);
        }

    }
    
}

einen HTMLParser wirst du in der Standard API nicht finden, aber bei google gibts duzend

hier ist auch ne liste http://java-source.net/open-source/html-parsers

Den Stream/Reader übergibst du im normalfall dem Parser und dann sollte er dir Methoden anbieten um daraus Inhalte rauszulesen. Dann kannst du die Links wieder mit ner URLConnection öffnen und dann halt auf Platte Streamen

paldawin · 5. Feb 2009

Kannst auch HTMLUnit verwenden!

DocRandom · 5. Feb 2009

..oder aber auch HTTPUnit.
Ist eben Geschmacksache

lg

Mithcoriel · 14. Apr 2012

Ich stelle meine Frage mal hier, da sie zum Thema zu passen scheint.
Ich will nämlich genau das machen: HTTPUnit benutzen um etwas herunterzuladen. Wie aber sorge ich dafür, dass das Program den Link in einem bestimmten Ordner abspeichert, unter einem bestimmten Namen?
(Danach googeln ist ziemlich schwer, denn wenn ich nach "java" + "download" suche kommen natürlich seiten, wo man Java downloaden kann.)

Danke.

Thraex · 18. Apr 2012

Für mich stellt sich erstmal die Frage, wie man mit HtmlUnit prüfen kann, ob es überhaupt eine downloadbare Datei gibt.

	Titel	Forum	Antworten	Datum
M	Download von Webseite	Netzwerkprogrammierung	4	23. Feb 2011
J	Webseite mit Kundenportal	Netzwerkprogrammierung	5	8. Okt 2021
C	Quelltext Webseite schlägt noch immer fehl	Netzwerkprogrammierung	30	14. Jun 2018
H	Daten auf einer Webseite eintragen	Netzwerkprogrammierung	11	26. Jul 2016
K	Mit Java ASPX Webseite fern steuern	Netzwerkprogrammierung	2	20. Aug 2014
D	Webseite(mit JavaScript-Element) mit Java auslesen	Netzwerkprogrammierung	0	1. Jun 2014
B	HTTP Webseite unter IP-Addresse nicht aufrufbar - unter Domain schon	Netzwerkprogrammierung	9	3. Feb 2013
O	HTTP Zugriff und Aktionen auf einer Webseite ausführen	Netzwerkprogrammierung	9	28. Sep 2012
S	Automatischer Login auf einer Webseite	Netzwerkprogrammierung	12	12. Mrz 2012
H	Daten an Textfeld einer Webseite schicken	Netzwerkprogrammierung	2	29. Nov 2011
E	Webseite mit Login laden	Netzwerkprogrammierung	5	14. Jul 2011
J	VideoStream von Webseite lesen/speichern	Netzwerkprogrammierung	7	7. Mrz 2011
T	Actions WebSeite	Netzwerkprogrammierung	3	25. Mrz 2010
M	Per eigenem Java SE Prog einloggen auf Webseite	Netzwerkprogrammierung	19	1. Feb 2010
	Applet von Webseite aufrufen und mit diesem kommunizieren	Netzwerkprogrammierung	8	13. Jan 2010
N	Webseite holen, Knöpfe drücken, Textfelder holen, etc.	Netzwerkprogrammierung	7	4. Mai 2009
S	Zugriff auf Webseite	Netzwerkprogrammierung	3	22. Nov 2008
J	programm zum autom. ausdruck einer webseite	Netzwerkprogrammierung	2	13. Nov 2008
P	Webseite ausfüllen und abschicken	Netzwerkprogrammierung	6	12. Okt 2008
G	Webseite <=> Java	Netzwerkprogrammierung	4	6. Mai 2008
S	webseite mit cookie besuchen	Netzwerkprogrammierung	5	26. Apr 2008
M	webseite automatisch ausfüllen und abschicken	Netzwerkprogrammierung	2	29. Mrz 2006
M	webseite holen	Netzwerkprogrammierung	7	26. Mrz 2006
E	In Webseite einloggen/ GET, POST an PHP-Script übergeben	Netzwerkprogrammierung	2	18. Okt 2005
J	Datei Download vom Server	Netzwerkprogrammierung	8	15. Mrz 2022
P	Jenkins Login per Java Download Manager	Netzwerkprogrammierung	15	8. Jul 2020
T	Download überprüfung...	Netzwerkprogrammierung	9	17. Okt 2018
S	HTTP Download von Google-URL mit Parametern	Netzwerkprogrammierung	1	19. Feb 2015
S	download PDF	Netzwerkprogrammierung	2	17. Dez 2014
V	Datei Download Fenster	Netzwerkprogrammierung	9	7. Jan 2013
R	Apache HttpClient File Download?	Netzwerkprogrammierung	3	16. Jul 2012
K	HTTP Eigener Http Response für Datei-Download	Netzwerkprogrammierung	4	7. Jun 2012
F	HTTP HTTP-Download: Dateien in einem Verzeichnis ermitteln	Netzwerkprogrammierung	8	23. Apr 2012
T	Download Programm - Download endet vorzeitig (bricht ab)	Netzwerkprogrammierung	11	5. Apr 2012
D	HTTP Download - Skript im Weg	Netzwerkprogrammierung	4	3. Feb 2012
C	Fehler bei PDF-Download	Netzwerkprogrammierung	5	1. Dez 2011
B	FTP *.class download	Netzwerkprogrammierung	2	13. Nov 2011
	Download eines Links	Netzwerkprogrammierung	2	5. Okt 2011
	FTP Download \| "PassiveMode"-Socket öffnen	Netzwerkprogrammierung	4	1. Aug 2011
B	HTTP Audio-Download per Direktlink	Netzwerkprogrammierung	4	1. Jul 2011
	Download aus Internet	Netzwerkprogrammierung	18	20. Apr 2011
A	RMI Fortschritt bei Up/Download anzeigen	Netzwerkprogrammierung	6	24. Jan 2011
T	Up- und Download mit https	Netzwerkprogrammierung	14	18. Nov 2010
A	HTTP Download einer Datei mit "Statistiken"	Netzwerkprogrammierung	2	3. Mai 2010
B	HTTP PDF Servlet download vom Server zum Client	Netzwerkprogrammierung	3	8. Apr 2010
	Download einer Datei durch SFTP mit Java	Netzwerkprogrammierung	12	16. Feb 2010
P	Name der Download-Datei ermitteln	Netzwerkprogrammierung	8	3. Jan 2010
	Download von FTP Server mit maximal Geschwindigkeit	Netzwerkprogrammierung	2	3. Dez 2009
P	HTTP Problem beim Download von einer Datei	Netzwerkprogrammierung	4	7. Okt 2009
	Download progress	Netzwerkprogrammierung	4	3. Aug 2009
D	FTP Download	Netzwerkprogrammierung	5	22. Apr 2009
N	Video download	Netzwerkprogrammierung	4	2. Mrz 2009
C	Download-Fortschritt wird falsch angezeigt.	Netzwerkprogrammierung	2	12. Dez 2008
E	Größe der Datei vor Download ermitteln	Netzwerkprogrammierung	3	25. Mrz 2008
B	FTP - Verzeichnis Download	Netzwerkprogrammierung	3	15. Jan 2008
A	Download-Client	Netzwerkprogrammierung	6	1. Jan 2008
A	download programm	Netzwerkprogrammierung	2	12. Jun 2007
K	http-download	Netzwerkprogrammierung	12	11. Jun 2007
2	Redirect, Login und Download bei Rapidshare.com	Netzwerkprogrammierung	4	18. Mai 2007
L	file upload / download über http	Netzwerkprogrammierung	5	11. Dez 2006
M	Download über URL	Netzwerkprogrammierung	7	13. Jul 2006
B	knacken bei download von mp3 datei	Netzwerkprogrammierung	2	11. Mrz 2006
N	Download HTTP .php-Seite mit Anmeldung	Netzwerkprogrammierung	5	16. Feb 2006
I	rmi und download von klassen	Netzwerkprogrammierung	12	1. Feb 2006
M	Download-Manager in System/Browser einbinden	Netzwerkprogrammierung	11	1. Nov 2005
G	file download über https mit p12 Zertifikat	Netzwerkprogrammierung	4	2. Sep 2005
P	Download funtioniert nicht richtig.	Netzwerkprogrammierung	2	28. Aug 2004
M	FTP Verbindung und download von *.txt	Netzwerkprogrammierung	6	25. Jun 2004

Webseite auf Download-Links prüfen und Download starten?

hdi

Top Contributor

Gelöschtes Mitglied 5909

Gast

hdi

Top Contributor

Gelöschtes Mitglied 5909

Gast

paldawin

Mitglied

DocRandom

Top Contributor

Mithcoriel

Neues Mitglied

Thraex

Mitglied

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen