Hallo! Ich wollte mich einmal informieren, ob es für folgende Probleme bereits Lösungen gibt (ich bin eigentlich davon überzeugt, doch vielleicht sind sie ja nicht in den Standardklassen implementiert):
Jeder Webbrowser muss damit klar kommen, doch ich bin jetzt schon lange am Programmieren und habe noch längst nicht alle Fälle abgedeckt.
Es geht darum:
Ich durchsuche eine Webseite und extrahiere die Links. Nun möchte ich von diesen neue URL-Objekte erstellen. Doch das Problem ist, dass es relative Links gibt. Insgesamt gibt es ganz viele Möglichkeiten, wie die URL im Quelltext angegeben sein kann und ich brauche eine Funktion, die daraus eine absolute URL bastelt.
Hier mal ein paar Beispiele für URL-Angaben im HTML-Text:
"http://..."
"?id=4"
"page.php?id=7"
"/page.php?id=7"
"../"
"essert.php?id=2&test=true"
"essert.php?id=2&test=true"
Verkompliziert wird das ganze durch das bereits existierende URL-Objekt zu dem der Quelltext relativ ist. Dieses hat auch viele Möglichkeiten am Ende:
"...page.php"
"...page"
"...page/"
Und natürlich auch die ganze Palette mit den Querys dran.
Die Funktion müsste jetzt beides analysieren, um dann zu wissen, was jeweils abgetrennt werden muss und wie es dann darangehängt wird.
Würde mich sehr freuen, wenn ihr mir da weiterhelfen könnt.
Jeder Webbrowser muss damit klar kommen, doch ich bin jetzt schon lange am Programmieren und habe noch längst nicht alle Fälle abgedeckt.
Es geht darum:
Ich durchsuche eine Webseite und extrahiere die Links. Nun möchte ich von diesen neue URL-Objekte erstellen. Doch das Problem ist, dass es relative Links gibt. Insgesamt gibt es ganz viele Möglichkeiten, wie die URL im Quelltext angegeben sein kann und ich brauche eine Funktion, die daraus eine absolute URL bastelt.
Hier mal ein paar Beispiele für URL-Angaben im HTML-Text:
"http://..."
"?id=4"
"page.php?id=7"
"/page.php?id=7"
"../"
"essert.php?id=2&test=true"
"essert.php?id=2&test=true"
Verkompliziert wird das ganze durch das bereits existierende URL-Objekt zu dem der Quelltext relativ ist. Dieses hat auch viele Möglichkeiten am Ende:
"...page.php"
"...page"
"...page/"
Und natürlich auch die ganze Palette mit den Querys dran.
Die Funktion müsste jetzt beides analysieren, um dann zu wissen, was jeweils abgetrennt werden muss und wie es dann darangehängt wird.
Würde mich sehr freuen, wenn ihr mir da weiterhelfen könnt.