Hallo,
mein name ist kiril. ich bin student im 2 semester und versuche ein kleines prog auf die beine zu setzten. ich hoffe ich krieg nbisschen unterstützung, weil meine java skills noch nicht das gelbe vom Ei sind.
Folgendes:
Ein Programm, welches Suchmaschinen Ergebnisse auswertet und dann die links runterlädt. Mit links meine ich verlinkungen auf pdf-dateien(erstmal), vllt kommen später noch andere dazu.
Ich hab mir das so gedacht:
Ein Objekt mit den Suchwörtern welches die verschiedenen URLs zusammenbastelt aus denen eine Suchabfrage besteht(google, yahoo, live altavista).
Danach wird der Quellcode der Seite runtergeladen und bearbeitet, sodass man am ende noch die links hat und die Anzahl der Suchergebnisse.
Mit der Anzahl der Suchergebnisse wird eine Schleife "gefüttert" welche die restlichen links für die Suche erstellt, damit man auf alle Seiten hat. Alles kommt in ein String[] oder ein HashSet(vllt besser wenn doppelte links angezeigt werden).
Die Strings werden dem Objekt FileDownloader übergeben, welcher die pdfs herunterlödt.
Was meint ihr? Wo könnten Probleme entstehen?
Ich hab schon selber ein Problem gefunden und vllt kan mir ja jmd helfen: wenn ich auf google zugreifen will mit connection.openConnection() und dann mit getInputStream() kommt ein 403(forbidden). Kann man das umgehen oder kennt ihr vllt eine suchmaschine, die die gleichen suchergebnisse liefert wie google?
Danke im voraus
Mit freundlichen grüßen
Kiril
mein name ist kiril. ich bin student im 2 semester und versuche ein kleines prog auf die beine zu setzten. ich hoffe ich krieg nbisschen unterstützung, weil meine java skills noch nicht das gelbe vom Ei sind.
Folgendes:
Ein Programm, welches Suchmaschinen Ergebnisse auswertet und dann die links runterlädt. Mit links meine ich verlinkungen auf pdf-dateien(erstmal), vllt kommen später noch andere dazu.
Ich hab mir das so gedacht:
Ein Objekt mit den Suchwörtern welches die verschiedenen URLs zusammenbastelt aus denen eine Suchabfrage besteht(google, yahoo, live altavista).
Danach wird der Quellcode der Seite runtergeladen und bearbeitet, sodass man am ende noch die links hat und die Anzahl der Suchergebnisse.
Mit der Anzahl der Suchergebnisse wird eine Schleife "gefüttert" welche die restlichen links für die Suche erstellt, damit man auf alle Seiten hat. Alles kommt in ein String[] oder ein HashSet(vllt besser wenn doppelte links angezeigt werden).
Die Strings werden dem Objekt FileDownloader übergeben, welcher die pdfs herunterlödt.
Was meint ihr? Wo könnten Probleme entstehen?
Ich hab schon selber ein Problem gefunden und vllt kan mir ja jmd helfen: wenn ich auf google zugreifen will mit connection.openConnection() und dann mit getInputStream() kommt ein 403(forbidden). Kann man das umgehen oder kennt ihr vllt eine suchmaschine, die die gleichen suchergebnisse liefert wie google?
Danke im voraus
Mit freundlichen grüßen
Kiril