Webseite auf Download-Links prüfen und Download starten?

Status
Nicht offen für weitere Antworten.

hdi

Top Contributor
Hi,

also erstmal weiss ich dass ich sowas in der Art schon mal vor ~1 Jahr gefragt hatte.
Leider habe ich es per SuFu nicht mehr gefunden, irgendwie ist das auch verbuggt (Wenn man nach
Autor "hdi" sucht kommen nicht nur meine Themen, sondern generell meine Beiträge)

Die Frage:

Bsp: Ich habe die Website www.tolledownloads.de, die eig. nur ne ganz normale HTML site ist mit
irgendwelchen Links. Die Links führen evtl auf andere Webseiten, oder bergen direkt ein Downloadbares File.

Ist es nun mit Java irgendwie möglich, mich zu dieser Website zu verbinden, sie auf ihre Links zu scannen, und
einen Link zu verfolgen (ggbflls über weitere Links), bis ich an einem Link angekommen bin, der direkt eine Datei
hergibt? (D.h. man kann auf der Seite auf den Link -> Rechtsklick -> Speichern unter und bekommt halt nicht
die HTML Seite, sondern eben eine "echte" Datei).
...und diese dann downloaden.

Falls das so pauschal nicht geht, wie könnte das eingeschränkt gehen? Bsp wenn ich genauere Informationen
über den Aufbau der Seite o.ä. habe, kann ich diese Infos in meinem Programm verwenden damit es klappt?

Im Zusammenhang damit frage ich mich, kann ich eine Website nach bestimmten Links durchsuchen, also
quasi nur den HTML Text durchsuchen? Sodass ich mich verbinde, und halt immer dort wo ich grad bin den
Site Content (wie gesagt: pures HTML, kein php oder jsp etc) überprüfe auf zB den Text "Download Eclipse",
und wenn ich nen Link mit diesem Teilstring gefunden habe, ihn verfolgen und Datei downloaden..

Das interessiert mich mal echt, weil es gibt viele Seiten im Inet die sich täglich updaten mit tollem Stuff,
alleine schon zB eine News-Seite,und deren Links alle nachverfolgen und den kompletten Content dann
als txt automatisch auf die Platte speichern.
Ich weiss es gibt Feeds dafür, aber wenn die Seite keine anbietet?

Naja, würd mich mal interessieren.

PS: Ich red hier erstmal nur von Seiten, wo man sich nicht einloggen muss oder sowas, also wo man direkten Zugriff auf Downloadlinks hat.

Danke
 
G

Gelöschtes Mitglied 5909

Gast
urlconnection/httpclient + htmlparser

vom parser die links analysieren und dann ggf mit urlconnection/httpclient auf platte streamen
 

hdi

Top Contributor
Okay danke erstmal, aber ich bin da absoluter Anfänger, ich hab über Inet noch nie was gemacht.
Ich glaub ich fang schon total falsch an, kann das sein:

Code:
	private URLConnection website;

	public Connect(String websiteURL) {
		try {
			this.website = new URL(websiteURL).openConnection();
			website.connect();
			
		} catch (IOException e) {
			e.printStackTrace();
		}

...weil egal welche Methode ich jetz auf website aufrufe, es kommt immer entweder ein Schrott raus
oder eine -1.

Ausserdem hab ich "HTMLParser" nicht gefunden in der API
 
G

Gelöschtes Mitglied 5909

Gast
Mal ganz einfach so:

Code:
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;

public class HTTPConnection {
    
    
    public static void main( String[] args ) throws MalformedURLException, IOException {
        URLConnection connection = new URL("http://www.heise.de").openConnection();
        BufferedReader reader = new BufferedReader(new InputStreamReader(connection.getInputStream()));
        String line;
        while ((line = reader.readLine()) != null) {
            System.out.println(line);
        }

    }
    
}

einen HTMLParser wirst du in der Standard API nicht finden, aber bei google gibts duzend

hier ist auch ne liste http://java-source.net/open-source/html-parsers

Den Stream/Reader übergibst du im normalfall dem Parser und dann sollte er dir Methoden anbieten um daraus Inhalte rauszulesen. Dann kannst du die Links wieder mit ner URLConnection öffnen und dann halt auf Platte Streamen
 

Mithcoriel

Neues Mitglied
Ich stelle meine Frage mal hier, da sie zum Thema zu passen scheint.
Ich will nämlich genau das machen: HTTPUnit benutzen um etwas herunterzuladen. Wie aber sorge ich dafür, dass das Program den Link in einem bestimmten Ordner abspeichert, unter einem bestimmten Namen?
(Danach googeln ist ziemlich schwer, denn wenn ich nach "java" + "download" suche kommen natürlich seiten, wo man Java downloaden kann.)

Danke.
 

Thraex

Mitglied
Für mich stellt sich erstmal die Frage, wie man mit HtmlUnit prüfen kann, ob es überhaupt eine downloadbare Datei gibt.
 
Status
Nicht offen für weitere Antworten.
Ähnliche Java Themen
  Titel Forum Antworten Datum
M Download von Webseite Netzwerkprogrammierung 4
J Webseite mit Kundenportal Netzwerkprogrammierung 5
C Quelltext Webseite schlägt noch immer fehl Netzwerkprogrammierung 30
H Daten auf einer Webseite eintragen Netzwerkprogrammierung 11
K Mit Java ASPX Webseite fern steuern Netzwerkprogrammierung 2
D Webseite(mit JavaScript-Element) mit Java auslesen Netzwerkprogrammierung 0
B HTTP Webseite unter IP-Addresse nicht aufrufbar - unter Domain schon Netzwerkprogrammierung 9
O HTTP Zugriff und Aktionen auf einer Webseite ausführen Netzwerkprogrammierung 9
S Automatischer Login auf einer Webseite Netzwerkprogrammierung 12
H Daten an Textfeld einer Webseite schicken Netzwerkprogrammierung 2
E Webseite mit Login laden Netzwerkprogrammierung 5
J VideoStream von Webseite lesen/speichern Netzwerkprogrammierung 7
T Actions WebSeite Netzwerkprogrammierung 3
M Per eigenem Java SE Prog einloggen auf Webseite Netzwerkprogrammierung 19
aze Applet von Webseite aufrufen und mit diesem kommunizieren Netzwerkprogrammierung 8
N Webseite holen, Knöpfe drücken, Textfelder holen, etc. Netzwerkprogrammierung 7
S Zugriff auf Webseite Netzwerkprogrammierung 3
J programm zum autom. ausdruck einer webseite Netzwerkprogrammierung 2
P Webseite ausfüllen und abschicken Netzwerkprogrammierung 6
G Webseite <=> Java Netzwerkprogrammierung 4
S webseite mit cookie besuchen Netzwerkprogrammierung 5
M webseite automatisch ausfüllen und abschicken Netzwerkprogrammierung 2
M webseite holen Netzwerkprogrammierung 7
E In Webseite einloggen/ GET, POST an PHP-Script übergeben Netzwerkprogrammierung 2
J Datei Download vom Server Netzwerkprogrammierung 8
P Jenkins Login per Java Download Manager Netzwerkprogrammierung 15
T Download überprüfung... Netzwerkprogrammierung 9
S HTTP Download von Google-URL mit Parametern Netzwerkprogrammierung 1
S download PDF Netzwerkprogrammierung 2
V Datei Download Fenster Netzwerkprogrammierung 9
R Apache HttpClient File Download? Netzwerkprogrammierung 3
K HTTP Eigener Http Response für Datei-Download Netzwerkprogrammierung 4
F HTTP HTTP-Download: Dateien in einem Verzeichnis ermitteln Netzwerkprogrammierung 8
T Download Programm - Download endet vorzeitig (bricht ab) Netzwerkprogrammierung 11
D HTTP Download - Skript im Weg Netzwerkprogrammierung 4
C Fehler bei PDF-Download Netzwerkprogrammierung 5
B FTP *.class download Netzwerkprogrammierung 2
eLogic Download eines Links Netzwerkprogrammierung 2
Dit_ FTP Download | "PassiveMode"-Socket öffnen Netzwerkprogrammierung 4
B HTTP Audio-Download per Direktlink Netzwerkprogrammierung 4
eLogic Download aus Internet Netzwerkprogrammierung 18
A RMI Fortschritt bei Up/Download anzeigen Netzwerkprogrammierung 6
T Up- und Download mit https Netzwerkprogrammierung 14
A HTTP Download einer Datei mit "Statistiken" Netzwerkprogrammierung 2
B HTTP PDF Servlet download vom Server zum Client Netzwerkprogrammierung 3
Ollek Download einer Datei durch SFTP mit Java Netzwerkprogrammierung 12
P Name der Download-Datei ermitteln Netzwerkprogrammierung 8
Schandro Download von FTP Server mit maximal Geschwindigkeit Netzwerkprogrammierung 2
P HTTP Problem beim Download von einer Datei Netzwerkprogrammierung 4
ModellbahnerTT Download progress Netzwerkprogrammierung 4
D FTP Download Netzwerkprogrammierung 5
N Video download Netzwerkprogrammierung 4
C Download-Fortschritt wird falsch angezeigt. Netzwerkprogrammierung 2
E Größe der Datei vor Download ermitteln Netzwerkprogrammierung 3
B FTP - Verzeichnis Download Netzwerkprogrammierung 3
A Download-Client Netzwerkprogrammierung 6
A download programm Netzwerkprogrammierung 2
K http-download Netzwerkprogrammierung 12
2 Redirect, Login und Download bei Rapidshare.com Netzwerkprogrammierung 4
L file upload / download über http Netzwerkprogrammierung 5
M Download über URL Netzwerkprogrammierung 7
B knacken bei download von mp3 datei Netzwerkprogrammierung 2
N Download HTTP .php-Seite mit Anmeldung Netzwerkprogrammierung 5
I rmi und download von klassen Netzwerkprogrammierung 12
M Download-Manager in System/Browser einbinden Netzwerkprogrammierung 11
G file download über https mit p12 Zertifikat Netzwerkprogrammierung 4
P Download funtioniert nicht richtig. Netzwerkprogrammierung 2
M FTP Verbindung und download von *.txt Netzwerkprogrammierung 6

Ähnliche Java Themen

Neue Themen


Oben