Library fuer Internet-Text-Daten-Quellen..?

sirbender

Top Contributor
Hi,

ich will Text aus verschiedenen Datenquellen erhalten. Dabei gibt es zwei generelle Bereiche: 1) allgemeine Daten bzw. 2) Daten gefiltert nach einem Suchwort.

Beispiele:
1) Eine Liste von News-Headlines
2) Eine Liste von News-Headlines fuer ein bestimmtes Suchwort

1) Liste mit 100 Eintraegen aus einem Twitter-Feed fuer einen gegebenen Hash
2) Liste mit Trending Topics bzw. Liste von Tweets fuer ein Suchwort

1) Text (ohne HTML) einer Webseite (also URL)
2) Text aus den ersten 100 Hits einer Google-Suche fuer ein Suchwort

usw.


Gibt es eine Library die sowas buendelt und man praktisch mit einer Zeile Code die gewuenschten Text-Daten bekommen kann?

vielen Dank,
sb
 

XHelp

Top Contributor
Eine Library, die irgendwas von irgendwo irgendwie gekommt und das Ganze auch noch als Einzeiler? Das glaube ich eher nicht.
Wenn du eine Webseite parsen willst, ist es ein Thema, wenn du TwitterAPI ansprechen willst, ist es ein anderes, wenn du mit RSS arbeiten willst ist es wieder was anderes. Aber du musst schon konkreter werden und dich mit jedem einzelnen Punkt befassen.
 

sirbender

Top Contributor
Also so abwegig finde ich nicht, dass jemand so eine Library geschrieben haette. Auch rede ich nicht davon alles irgendwoher zu bekommen sondern nenne konkrete Beispiele von grossen bekannten Diensten wie Twitter und Google.

Bei Twitter kann man ja einfach mit einem Einzeiler schon jetzt einen JSON-String kriegen der fuer ein Suchwort eine Liste von Tweets liefert: http://search.twitter.com/search.json?q=puppy

Und JSON reinparsen geht sehr einfach. Auch ist die Aufgabe zu einem grossen Teil HTML irgendwo herholen und irgendwie in Java-Strukturen bringen. Entweder durch Parsen oder eben durch JSON. Deswegen finde ich es nur normal wenn es so eine Loesung geben wuerde - die Ueberschneidungen sind einfach sehr gross.
 

XHelp

Top Contributor
Aber welchen Sinn hat das eine Library für Twitter, Google-Suchergebnisse, Parsen von normalen WebSeiten und dann auch noch speziell für Nachrichten zu machen und somit die Sachen in einen Topf zu werden? Das sind doch völlig verschiedene Sachen. Und auch die dazugehörende Metadaten unterscheiden sich stark, so dass die Datenstruktur keine großartigen Gemeinsamkeiten aufweisen wird.
 

sirbender

Top Contributor
Das die Datenstrukturen keine Gemeinsamkeiten aufweisen ist nicht richtig. Das parsen ganzer Webseiten ist das einzige was ein bischen rausfaellt. Wenn dies Python und nicht Java waere wuerder keiner keiner meckern. Da will man einfache, kleine nuetzliche Libs.

// Parameter sind Suchwoerter, Anzahl der Tweets
List<String> data = Twitter.getLastTweets(new String(){"puppy", "poop"}, 100);

List<String> data = News.getLastHeadlines(...selbes Schema...);

List<String> data = Website.getTextInParagraphs("http://www.spiegel.de");

...usw...

Also ich faende diese Lib enorm praktisch und auch die Ueberschneidungen waeren enorm.
 

XHelp

Top Contributor
List<String> ist natürlich eine sehr sinnvolle Datenstruktur für eine Library. Da lassen sich ja hervorragen Metadaten wie "Date", "Author", "URL" etc speichern und separat behandeln :bahnhof:
 

sirbender

Top Contributor
Manche Leute glauben halt, dass man Libraries so schreiben sollte, dass es ein monolithisches unnutzbares Biest wird. Bevor man damit loslegen kann, muss man erstmal hundert Seiten Doku lesen und dann die konkreten Klassen der Lib erweitern, von HTTP-GET Klasse bis Parser.

Sorry, sehe ich anderst. Das Ding soll nuetzlich sein und einfach viel koennen mit einem Einzeiler. Sowas wuerde ich dann sogar beim App-Entwickeln zum testen nutzen wenn es darum geht, dass meine UI mit sinnvollen Daten gefuellt wird und man auch noch den Effekt von Latenzzeiten sieht wenn man die Daten nicht aus lokalen Dateien holt.

Jedenfalls finde ich die Art und Weise wie Java-libs geschrieben sind/werden in vielen Faellen einfach schlecht. Man muss den "Sweet Spot" finden. Also die Komplexitaetsebene, wo es fuer die meisten Leute schon nuetzlich ist und fuer die die es nicht nuetzlich ist so einfach zu erweitern, dass sie es auch machen koennen weil eben die Lib. so einfach ist.

Im Moment praesentieren viele Libs den "Sour Spot". Schon alleine das Benutzen braucht Seitenweise Code und das Erweitern ist ein Albtraum.
 

XHelp

Top Contributor
Wenn du die so sinnvoll findest, dann schreib doch deine eigene Lib. Nach deiner Auffassung her wird die ja eine breite Masse an Befürworter finden. Spätestens da wirst du merken, dass es so richtig keiner benutzen wird, weil man damit nichts sinnvolles anfangen kann.
 

Evil-Devil

Top Contributor
Externe Daten den lokalen vorziehen? Never! Was ist im Fall wie letztens, wo Facebook down war und somit diverse Websites mit hinabgerissen hat. Oder man eine alte Nachricht erneut lesen will aber kein INternet hat. Allein der Unterschied zwischen Facebook Daten und Twitter Daten ist gewaltig. Die kriegt man nie unter einen Hut.

Oder kann Twitter seit neuestem Bilder-Alben anlegen? ;)

Das einzige das an solch einer Lib womöglich sinnvoll wäre, ist eine gemeinsame und einheitliche Abfrage zum Erhalt der Daten. Die Datenspeicherung und Haltung sollte dann aber individuell erfolgen.
 
Ähnliche Java Themen
  Titel Forum Antworten Datum
D Hat Java eine Library um JavaScript auszuwerten? Allgemeine Java-Themen 2
F Problem mit PDFBOX Library Allgemeine Java-Themen 1
D Open Source Library zum erstellen von PDFs Allgemeine Java-Themen 1
webracer999 Library für Textsuche (z. B. include/exclude, and/or)? Allgemeine Java-Themen 5
P9cman java.Lang Klassen fehlen in JRE System Library Allgemeine Java-Themen 1
I OCR Library für Belegerkennung Allgemeine Java-Themen 7
F Kennt ihr eine Library um 2 HTML Seiten zu diffen? Allgemeine Java-Themen 8
H Interface PluginSystem ClassNotFound exception für library Klassen Allgemeine Java-Themen 10
O Arrays an DOCX-Stamper Library übergeben Allgemeine Java-Themen 1
TheWhiteShadow 2D-Grafik GIF Library mit byte output Allgemeine Java-Themen 10
J Probleme beim einbinden von Zip4j library Allgemeine Java-Themen 6
B Maven Keycloak library wirft exceptions nach maven package Allgemeine Java-Themen 1
A Classpath Library in verschiedenen Projekten Allgemeine Java-Themen 2
O Standard library nativer C code Allgemeine Java-Themen 1
B OCR Library gesucht Allgemeine Java-Themen 6
S Anwendung die alle Abhaengigkeiten einer Library listet..? Allgemeine Java-Themen 5
Tausendsassa Kabeja Library Allgemeine Java-Themen 9
4a61766120617274697374 PDF library Allgemeine Java-Themen 5
D Library/Framework zum Umwandeln von Sound in Notenbilder Allgemeine Java-Themen 1
S Classpath Wie kann ich Java-Library Klassen "verstecken"..? Allgemeine Java-Themen 4
J Lanterna Library Allgemeine Java-Themen 2
A Linux: Native Library mit Rootrechten ohne Prozess mit sudo zu starten Allgemeine Java-Themen 1
F Java Native/Shared Library (.so) laden macht Probleme Allgemeine Java-Themen 3
F rxtx library mit virtuellem Comport Allgemeine Java-Themen 2
chuxXo JAVA MP3 Library Allgemeine Java-Themen 11
F Frage zur Library JTS Allgemeine Java-Themen 5
M Interface einer Library implementieren Allgemeine Java-Themen 3
reibi JNA - Native Acess - Library Path Allgemeine Java-Themen 2
G USB Library Allgemeine Java-Themen 1
B Load Library and use JNA to access Allgemeine Java-Themen 3
G Native Library / Fehler beim Laden der .so/.dll Datei Allgemeine Java-Themen 17
B IRC-Library Gesucht Allgemeine Java-Themen 2
N DTAU Library Allgemeine Java-Themen 2
H java.library.path mit einer Batch-Datei einstellen Allgemeine Java-Themen 3
G RXTX native library unter Linux in jar build angeben Allgemeine Java-Themen 4
B NetBeans Library nicht gefunden Allgemeine Java-Themen 6
T Einbinden einer Library in NetBeans Allgemeine Java-Themen 3
S RXTX library in Jar einbinden Allgemeine Java-Themen 5
R JNI load so-library Allgemeine Java-Themen 4
M Best Practices Exception Handling für eigene library Allgemeine Java-Themen 8
ruutaiokwu META-INF-daten bei ungepackten library-projekten während der entwicklung mit einbeziehen...? Allgemeine Java-Themen 2
I Library für High Performance Mime Type Erkennung Allgemeine Java-Themen 8
C Jni Library/dll erstellen Allgemeine Java-Themen 4
G Suche "richtiges" Framework/Library Allgemeine Java-Themen 14
G Library für CNC Programme Allgemeine Java-Themen 2
T Mathematik Parser Library? Allgemeine Java-Themen 4
P jar <-> Library Allgemeine Java-Themen 2
nrg Externe Library Lizenzen Allgemeine Java-Themen 14
D plattformabhängige library ausblenden Allgemeine Java-Themen 4
S 3D Grafik Library? Allgemeine Java-Themen 5
Lufti Unterschied zwischen Djava.library.path und Class-Path im Manifest? Allgemeine Java-Themen 2
N Exception in thread "main" java.lang.UnsatisfiedLinkError: no lwjgl in java.library.p Allgemeine Java-Themen 4
P SUCHE: gute Geo Library (freeware) Allgemeine Java-Themen 2
P Suche performante PDF Library Allgemeine Java-Themen 20
S suche library die diagramme darstellen kann Allgemeine Java-Themen 2
G RXTX library braucht sehr lange zum laden. Ist das normal? Allgemeine Java-Themen 8
A Strings joinen, Standard-Library? Allgemeine Java-Themen 9
F Java Library für Videobearbeitung, edit, cut, encode. Allgemeine Java-Themen 6
P MP3-Player Library: MP3 abspielen und ID-Tags auslesen Allgemeine Java-Themen 12
D PDF library Allgemeine Java-Themen 6
J ICQ Library Allgemeine Java-Themen 6
T Native Library ausliefern Allgemeine Java-Themen 12
C Speicherlecks in externer Library Allgemeine Java-Themen 2
A java.library.path festlegen. Allgemeine Java-Themen 5
J Native Library einbinden Allgemeine Java-Themen 17
G C++ Library in Java einbinden Allgemeine Java-Themen 4
C ICQ Library Allgemeine Java-Themen 3
M JNI, static.a mit load.Library laden? Allgemeine Java-Themen 2
T Disk Image Library (iso,mdf,nrg,bin) Allgemeine Java-Themen 6
cowabunga1984 Library um TIF in PDF zu konvertieren Allgemeine Java-Themen 2
foobar java.library.path Property setzen Allgemeine Java-Themen 5
F POI Library - Graphic in Excel inserten möglich? Allgemeine Java-Themen 2
ralfb1105 Classpath Directory fuer Properties File Allgemeine Java-Themen 2
S Access Restrictions in Eclipse auf Code beschraenken (und nicht fuer Comments) Allgemeine Java-Themen 2
S Generics: Fuer Set<T> ein T-Klassenobjekt erhalten? Allgemeine Java-Themen 3
J Sinnvolle Dateigroesse fuer PDAS-Transfer Allgemeine Java-Themen 2
G Software fuer Auktionshaus Filmundo.de aber wie? Allgemeine Java-Themen 2
R Signatur fuer Applets. Allgemeine Java-Themen 5
J Suche regex-Pattern fuer Liste von Zahlen zwischen 0-100 Allgemeine Java-Themen 6
F Idee fuer Suchfeldmapping gesucht Allgemeine Java-Themen 10
M Ersatz fuer instanceof Allgemeine Java-Themen 11
F URI Problem bei Parametern fuer Outlook Allgemeine Java-Themen 4
E Was ist ein gutes Design fuer meine Programm? Allgemeine Java-Themen 3
G JML fuer Java 5 Allgemeine Java-Themen 19
M Oeffnen des Standartprogramms fuer XML Dateien aus Java Allgemeine Java-Themen 4
Jose05 Zusammen übers (Internet) spielen Allgemeine Java-Themen 3
S Programm schreiben, das mir aufgrund von Schlagwörtern, die ich im Internet suche, relevante Themen sofort anzeigt. Allgemeine Java-Themen 1
J Internet Broswer in Threads öffnen Allgemeine Java-Themen 1
D Dateien aus den Internet herunterladen Allgemeine Java-Themen 6
E Java und Internet überwachen? Allgemeine Java-Themen 4
V Gibt es eine Möglichkeit die Internet auslastung mit Java auszulesen Allgemeine Java-Themen 11
D JAVA Basiertes Spiel aus dem Internet in eigenem Client laden Allgemeine Java-Themen 3
X Herunterladen von Dateien aus dem Internet Allgemeine Java-Themen 2
H Java Mail Fehlermeldung: java.lang.NoClassDefFoundError: javax/mail/internet/AddressException Allgemeine Java-Themen 5
M Film Informationen aus Internet beziehen Allgemeine Java-Themen 4
J Echte Adressen aus Internet Allgemeine Java-Themen 28
J Wie kann man .txt Files übers Internet verschicken? Allgemeine Java-Themen 53
N Was hat java mit dem internet zu tun? Allgemeine Java-Themen 7
F CSV-Datei aus Internet lesen Allgemeine Java-Themen 2
T Link zum Internet Allgemeine Java-Themen 12

Ähnliche Java Themen

Neue Themen


Oben