Crawlen von Websites

Marc T.

Bekanntes Mitglied
Hallo,

nur eine kleine Frage zum Crawlen von Webseiten.

Ist es wichtig das Übertragungsprotokoll der Webseiten (z.B. HTTP oder HTTPS)
zu überprüfen?

Wenn Ja, Warum?

Grüße ;)
 

Marc T.

Bekanntes Mitglied
Okay scheint nicht sehr verbreitet zu sein das Thema.

Ein Crawler holt sich Internetseiten aus dem Web beginnend
bei einer Startadresse (URI). Beispielsoftware wäre wget.

Das ich auf Robots.txt überprüfen muss und ob es überhaupt
HTML-Inhalte sind weiß ich, wie gesagt weiß ich nur nicht ob
ich auch das Übertragungsprotokoll prüfen muss.
 

TheDarkRose

Gesperrter Benutzer
Wir wissen was ein Crawler ist und tut. Die Frage ist eher, warum solltest du überprüfen wollen ob HTTP oder HTTPS verwendet wird.?
 

XHelp

Top Contributor
Wenn eine Seite https verwendet, muss du https verwenden. Wenn eine Seite http verwendet, muss du http verwenden.
Ich verstehe die Frage nicht ganz.
 

Marc T.

Bekanntes Mitglied
Weil ich mir gedachte habe, dass ich die Startadresse eingebe und dann nur
innerhalb der Domain sucht. Das heißt in dem Moment in dem er auf einen Link
trifft bei dem die Domain verlassen wird, überspringt er diesen Link.

Bsp:

1. Startdomain: http://www.test-seite.de
2. Startdomain wird gecrawlt
3. Gefundener Link: http://www.test-seite.de/tiefe_1
4. Gefundener Link wird gecrawlt
5. Gefundenen Link: http://www.verlasse-test.de
6. Gefundenen Link überspringen
7.....

Wenn ich die suche nicht auf die Domain beschränke, könnte es unter Umständen
passieren, dass ich bei entsprechnder Setzung der Start URI's (können mehrere sein)
das gesamte Internet Crawle.....

Das ist natürlich nur rein theoretisch.

Und wenn ich immer auf der gleichen Domain bleibe, warum muss ich dann das
Protokoll testen? Das Beispiel was du gerade gepostet hast, bleibt auch immer
auf der selben Domain.
 
S

SlaterB

Gast
von 'immer auf der gleichen Domain bleiben' war in deiner ursprünglichen Frage nicht die Rede,
wie wo wann warum getestet wird ist in pauschaler Frage reichlich unklar,

ich persönlich habe keine Vorstellung was du, der nicht mehr vorhandene Link oder die Welt allgemein dazu sagt,
nur ist grundsätzlich interessant, wie eine Webseite arbeitet,

und selbst auf einer http-Seite kann übrigens ein https-Link vorhanden sein, etwa zum Online-Banking von der Werbe-Homepage einer Bank

Achtung Werbung:
'http:// ww w.deutsche-bank.de/index.htm'
-> 'https:// meine.deutsche-bank.de/'
falls das nicht zu deinen Verlassen-Punkt zählt
 

Neue Themen


Oben