Ich bin ein absoluter Java-Anfänger und habe von meinem Professor eine Aufgabe bekommen, die ich alleine nicht lösen kann. Ich sollte von 2 Internetseiten das Bildmaterial lokal in der SQL Datenbank abspeichern. Konkret, von der Olga's Gallery - Online Art Museum. alle Bilder vom Picasso abspeichern, wobei für jedes Bild die wichtigen Tags wie Name, Author, Größe usw in die Datenbank gespeichert werden sollten, zusammen mit dem Bild.
Ich sollte eine bestehende Lösung nehmen (und keine selbst programmieren!) und sie anpassen. Natürlich soll sie open source sein...
Ich bräuchte bitte Ihre Hilfe. Das ganze Projekt, das ich machen sollte, das als Ziel eine Basis für ein Virtual Museum zu schaffen. Nochmals kurz: das Bildmaterial von Webseiten samt wichtiger Tags in die SQL Datenbank abspeichern.
Ich hoffe ich habe es gut erklärt und danke für die Hilfe!
naja also ne bestehende Lösung kenne ich für sowas nicht. Ich weiß ja nicht wie sich das dein Prof vorstellt, aber ich würde die HTML Seite runterladen, sie durch nen XML Parser jagen und dabei mit XPath nach bestimmten Pfaden suchen. Danach brauchst du dir eig nur noch die relevanten Infos zusammen suchen und in einzelne Variablen speichern und abdafür in die DB.
Ich würde mir an deiner Stelle erstmal nen Firebug installieren und dann das HTML analysieren was du da überhaupt braucht...
BTW: Wie sieht das überhaupt rechtlich aus? Nicht das es da schwierigkeiten gibt ...
Rechtlich schaut das ganze gut aus, wird das ganze aber so wie so nicht verwendet, es ist halt nur ein Pilotprojekt...alle Bilder auf dieser Seite sind nicht mehr Urheberrechtlich geschützt, da nach dem Tod des Malers mehr als 70 Jahre vergangen sind...
schaue dir mal das an, es sind Crawlers, die die Bilder abspeichern...aber ich habe schon 2 versucht zu verwenden und ist mir nicht gelungen, deswegen brauche ich die Hilfe hier...
Warum natürlich der Crawler nicht funktioniert kann ich so Ad-Hoc ohne weitere Infos nicht sagen...
Aber ich hab mir jetzt diesen Crawler4J angeschaut und wenn du den wirklich hernehmen möchtest müsstest du die Logik wie oben beschrieben implementieren. Bzw. du kannst den BasicCrawler nehmen und damit das HTML holen und parsen oder du implementierst einen eigenen Crawler so, dass das Ergebnis schon passt.
Sonst fällt mir gerade nichts mehr ein...
Problem ist halt das du beim BasicCrawler zu viel bekommst und beim ImageCrawler zu wenig (der gibt dir ja, wenn ich es richtig gesehen hab einfach alle Bilder der Seite zurück, wenn aber das Bild nicht mit Metainfos angereichtert ist fehlt dir ja der Name usw...)