Crawlen von Websites

Marc T. · 2. Apr 2012

Hallo,

nur eine kleine Frage zum Crawlen von Webseiten.

Ist es wichtig das Übertragungsprotokoll der Webseiten (z.B. HTTP oder HTTPS)
zu überprüfen?

Wenn Ja, Warum?

Grüße

SlaterB · 2. Apr 2012

keine Java-Basics-Frage, selbst für Java an sich fraglich,
verschoben

Marc T. · 3. Apr 2012

Okay scheint nicht sehr verbreitet zu sein das Thema.

Ein Crawler holt sich Internetseiten aus dem Web beginnend
bei einer Startadresse (URI). Beispielsoftware wäre wget.

Das ich auf Robots.txt überprüfen muss und ob es überhaupt
HTML-Inhalte sind weiß ich, wie gesagt weiß ich nur nicht ob
ich auch das Übertragungsprotokoll prüfen muss.

TheDarkRose · 3. Apr 2012

Wir wissen was ein Crawler ist und tut. Die Frage ist eher, warum solltest du überprüfen wollen ob HTTP oder HTTPS verwendet wird.?

XHelp · 3. Apr 2012

Wenn eine Seite https verwendet, muss du https verwenden. Wenn eine Seite http verwendet, muss du http verwenden.
Ich verstehe die Frage nicht ganz.

ARadauer · 3. Apr 2012

Marc T. hat gesagt.:
Wenn Ja, Warum?

Ja weil eventuell die inhalte für http nicht verfügbar sind...

Marc T. · 3. Apr 2012

Meine Frage kommt daher, dass ich vor ein paar Tagen diesen Link
gelesen habe (der jetzt leider nicht mehr verfügbar ist)

http://java.sun.com/developer/technicalArticles/ThirdParty/WebCrawler/

Auf dieser Seite wurde der grobe Algorithmus eines WebCrawlers beschrieben
und dort wurde unter anderem der Punkt genannt, dass man das Übertragungs-
protokoll überprüfen muss. So komm ich zu meiner Frage.

SlaterB · 3. Apr 2012

der Quelltext könnte
http://www.harding.edu/fmccown/classes/comp475-s09/WebCrawler.java.txt
sein, allerdings ohne entsprechende Berücksichtigungen,

grundsätzlich ist eine Webseite mal über http, mal über https zu erreichen,
wie kann da diese Frage nicht wichtig oder unklar sein?

ein Taxiunternehmer auf Expansionskurs darf doch auch Fragen, ob in der neuen Welt Straßen oder Schienen vorhanden sind

Marc T. · 3. Apr 2012

Weil ich mir gedachte habe, dass ich die Startadresse eingebe und dann nur
innerhalb der Domain sucht. Das heißt in dem Moment in dem er auf einen Link
trifft bei dem die Domain verlassen wird, überspringt er diesen Link.

Bsp:

1. Startdomain: http://www.test-seite.de
2. Startdomain wird gecrawlt
3. Gefundener Link: http://www.test-seite.de/tiefe_1
4. Gefundener Link wird gecrawlt
5. Gefundenen Link: http://www.verlasse-test.de
6. Gefundenen Link überspringen
7.....

Wenn ich die suche nicht auf die Domain beschränke, könnte es unter Umständen
passieren, dass ich bei entsprechnder Setzung der Start URI's (können mehrere sein)
das gesamte Internet Crawle.....

Das ist natürlich nur rein theoretisch.

Und wenn ich immer auf der gleichen Domain bleibe, warum muss ich dann das
Protokoll testen? Das Beispiel was du gerade gepostet hast, bleibt auch immer
auf der selben Domain.

SlaterB · 3. Apr 2012

von 'immer auf der gleichen Domain bleiben' war in deiner ursprünglichen Frage nicht die Rede,
wie wo wann warum getestet wird ist in pauschaler Frage reichlich unklar,

ich persönlich habe keine Vorstellung was du, der nicht mehr vorhandene Link oder die Welt allgemein dazu sagt,
nur ist grundsätzlich interessant, wie eine Webseite arbeitet,

und selbst auf einer http-Seite kann übrigens ein https-Link vorhanden sein, etwa zum Online-Banking von der Werbe-Homepage einer Bank

Achtung Werbung:
'http:// ww w.deutsche-bank.de/index.htm'
-> 'https:// meine.deutsche-bank.de/'
falls das nicht zu deinen Verlassen-Punkt zählt

Crawlen von Websites

Marc T.

Bekanntes Mitglied

SlaterB

Gast

Marc T.

Bekanntes Mitglied

TheDarkRose

Gesperrter Benutzer

XHelp

Top Contributor

ARadauer

Top Contributor

Marc T.

Bekanntes Mitglied

SlaterB

Gast

Marc T.

Bekanntes Mitglied

SlaterB

Gast

Aktuelle Jobs

Neue Themen