Weil ich mir gedachte habe, dass ich die Startadresse eingebe und dann nur
innerhalb der Domain sucht. Das heißt in dem Moment in dem er auf einen Link
trifft bei dem die Domain verlassen wird, überspringt er diesen Link.
Bsp:
1. Startdomain:
http://www.test-seite.de
2. Startdomain wird gecrawlt
3. Gefundener Link:
http://www.test-seite.de/tiefe_1
4. Gefundener Link wird gecrawlt
5. Gefundenen Link:
http://www.verlasse-test.de
6. Gefundenen Link überspringen
7.....
Wenn ich die suche nicht auf die Domain beschränke, könnte es unter Umständen
passieren, dass ich bei entsprechnder Setzung der Start URI's (können mehrere sein)
das gesamte Internet Crawle.....
Das ist natürlich nur rein theoretisch.
Und wenn ich immer auf der gleichen Domain bleibe, warum muss ich dann das
Protokoll testen? Das Beispiel was du gerade gepostet hast, bleibt auch immer
auf der selben Domain.