Auf Tools verlinken ist ja nicht illegal
Die Folien darf ich dir leider nicht schicken, da sind die in diesem Fach seltsamerweise nicht sehr freigiebig.
Mozenda - Super Service, super Tool allerdings rein Windows da .Net-Anwendung. Es gibt auch einen Webservice der allerdings fehleranfällig sein. Ein paar Leute haben sich die Mühe gemacht und OCR-Bindings geschrieben, vielleicht für ein Tool für dich interessant.
Lixto Web Developer - Ist von dem Professor dessen LVA ich besucht habe. Gar nicht schlecht, vielleicht findest du ja irgendwo eine Trial-Version.
Chickenfoot - Ein Firefox-Plugin das auf Web Extraction getrimmt ist. Funktioniert leider nur mit Firefox 3 und ist mit JS-Scripting verbunden, leistet aber was du brauchst.
Solvent als Piggy Bank Frontend - Zu dem kann ich nicht viel sagen. ich habe es nicht ausprobiert.
Ruby Mechanize - (Musst du dir als GEM installieren), eine super Möglichkeit um mit Ruby zu scripten. Wir haben es in der ersten Übung verwendet um einen News-Aggregator zu schreiben. Ich weiß allerdings nicht ob das nicht mit Mechanize schwierig wird, wenn viel mit JS gerendert wird.
Mozenda und Lixto sind Tools die du per vorzeigen programmieren bzw. trainieren kannst. Solvent scheint das auch zu können, aber ich kenne es leider nicht. Ruby Mechanize ist wahnsinnig einfach zu programmieren, schau mit Firebug einmal in den Netzwerktraffic deiner Seite rein, vielleicht kannst du ja auf JS gerenderte Inhalte verzichten und einfach die richtigen Services ansprechen.