html aus aktuellem Browserfenster mitlesen lassen

MeisterGlanz

Neues Mitglied
Hallo,
Ich weiss nicht, ob ich das richitge Unterforum gewählt habe. Eigentlich hat mein Problem nicht direkt etwas mit Java zu tun, bzw ich weiss noch gar nicht, ob sich die gewünschte Funktionalität so in Java implementieren lässt. Es geht hier auch erstmal nicht unbedingt konkret um die Implementierung in Java (oder falls nötig auch einer anderen Sprache), sondern vielmehr um das Konzept.
Ich möchte folgendes erreichen:
Wann immer man einen Browser öffnet und eine website besucht, soll mein Programm (wenn es im Hintergrund läuft) den Seitenquelltext der aktuell im Browser aufgerufenen Seite in "Echtzeit" mitlesen.
Herauskommen soll mal ein tool, das einen bei aufwändigen Internetrecherchen unterstützen soll. Aber ich denke, fürs erste habe ich schon mit dieser Teilaufgabe genug zu tun.
Wichtig ist mir, dass alles vollkommen automatisch und für den Benutzer unsichtbar abläuft. Ein workaround, das zB darauf abzielt, dass der Benutzer manuell den Seitenquelltext anzeigen lässt, ihn dann in einer Textdatei speichert und durch mein Proggi laden lässt, käme also nicht in Frage.

Das ganze soll später einmal unter Windows mit dem IE und dem Firefox funktionieren.

Jetzt würde mich zuerst einmal ganz banal interessieren, welche Möglichkeiten man hat, so etwas zu erreichen?
Mir würden spontan folgende einfallen:

- Vom OS Speicherbereich des Browsers "erfragen", diesen auslesen und nach html durchsuchen. Dies müsste dann immer wieder nach einem bestimmten Zeitintervall geschehen.
(wäre meines Wissens nach nicht in Java möglich)

-Datenpakete direkt auf der Netzwerkschnittstelle mitlesen und html herausfiltern
(meiner Einschätzung nach die komplizierteste Vorgehensweise)

-Kann man die gängigen Browser irgendwie anweisen, eine aufgerufene Seite sofort bei Aufruf als Kopie irgendwo auf die Platte zu schreiben? Falls nicht, gibt es dann evtl. plugins die eine derartige Funktionalität zur Verfügung stellen?
(Sicherlich der sauberste Weg, kommt aber nur in Frage, wenn man es so hinbekommt, dass der Browser dies dann automatisch bei JEDER geladenen Seite SOFORT tut, ohne dass der Benutzer extra irgendwo draufklicken muss oder so)

Hat vielleicht noch jemand eine andere Idee, sowas zu realisieren? Was meint ihr zu den bereits vorgestellten Vorgehensweisen? Wie schon erwähnt, geht es zu allererst einmal nur um die Planung, nicht die konkrete Implementierung.
Wäre auch schon für ein paar Stichworte dankbar, in welche Richtung ich mich mal näher informieren sollte. Im Moment tappe ich noch vollkommen im Dunkeln.

MfG
MeisterGlanz
 
T

Tomate_Salat

Gast
ersteres kannst du ohne Einsatz von z.B. jni/jna komplett vergessen und wird auch denke ich selbst dann recht schwer/kompliziert.

zweiteres wird mit reinem Java wahrscheinlich auch nicht möglich sein.

dritteres wäre dass, was ich machen würde: ein Plugin/eine Extension für den Browser. Da musst du dir einfach mal die Api der jeweiligen Browser anschauen, was du da machen kannst. Ich könnte mir vorstellen, dass du da mit Websockets z.B. gut arbeiten könntest und so einen Stream zu deinem Programm (falls noch benötigt) aufbauen kannst.

Ich habe hier nur experimentelle Erfahrungen mit Extensions/Plugins für Googles Chrome und Firefox 3. Ersteres hat imho die schönere Api (zumal du, wenn ichs richtig in Erinnerung habe, nicht jedes mal den Browser neustarten musstest, wenn sich was an deinem Source geändert hat).
 

faetzminator

Gesperrter Benutzer
Ich würde auch zu einem Plugin für den jeweiligen Browser raten. Sollte nicht allzu komplex werden. Anscheinend kann man zumindest in Firefox irgendwie ins Dateisystem schreiben, sagt mir eine kurze Websuche.
Aber ich hab mal einen "Multiple ID finder" geschrieben, der dir auf Wunsch (wenn aktiviert) beim Laden der Website mehrfach verwendete IDs in der Firebug Console ausgab. War mit 20-30 LOC geschrieben.
 
T

Tomate_Salat

Gast
Warum nicht einen HTTP-Proxy schreiben, ist relativ einfach gemacht und geht mit eigentlich jedem Browser.

Sehe ich mehr nach- als vorteile.

Habe jetzt noch nicht soviel Netzwerktechnisches gemacht aber:

Könnte das nicht bei HTTPS probleme geben?
Wird es nicht problematisch, dynamisch nachgeladenen Content zuzuweisen
ER hat nicht unbedingt eine "Echtzeitanalyse"

Ich würde das nach wie vor mit einem Plugin lösen. Da kann er auch auf Benutzereingaben und dynamisch geladenen Content reagieren.
 

MeisterGlanz

Neues Mitglied
Danke für die schnellen Antworten.

Hatte mir schon gedacht, dass es auf die Sache mit den plugins hinauslaufen wird. Kenne mich damit aber noch nicht so aus. Werde mich mal in den nächsten Tagen etwas ausführlicher darüber informieren.

Melde mich dann nochmal wenn ich konkretere Probleme habe. Bin aber natürlich noch weiterhin für andere Vorschläge offen.
 
Ähnliche Java Themen
  Titel Forum Antworten Datum
S Bookmark HTML Datei einlesen, alle Links erhalten und manche editieren..? (aktuell JSoup) Allgemeine Java-Themen 4
S HTML einer Webseite 1:1 so bekommen wie es auch der Browser anzeigt? Allgemeine Java-Themen 14
C Parsen einer sich updatenden Html mithilfe von jsoup Allgemeine Java-Themen 4
I HTML / XHTML Seite nach Excel exportieren. Suche Lib Allgemeine Java-Themen 12
F Kennt ihr eine Library um 2 HTML Seiten zu diffen? Allgemeine Java-Themen 8
K HTMLEditor HTML Text in Rich Text umwandeln Allgemeine Java-Themen 14
N Value Wert aus HTML-Button mittels thymeleaf spring an java übergeben Allgemeine Java-Themen 2
N Lottowebsite programmieren mittels Java, HTML,.... Allgemeine Java-Themen 7
S HTML den ich von einer URL hole nicht identisch mit dem HTML im Browser Allgemeine Java-Themen 1
M Html Seite auslesen Allgemeine Java-Themen 16
Developer_X Website HTML Code von HTTPS URL laden Allgemeine Java-Themen 0
L HTML Formular ausführen Allgemeine Java-Themen 1
J Auslesen Daten Java/HTML Allgemeine Java-Themen 15
A Applet in HTML einbinden Allgemeine Java-Themen 1
KeVoZ_ JSoup - HTML Tag entfernen Allgemeine Java-Themen 1
I HTML einer Website auslesen liefert nur head Allgemeine Java-Themen 6
perlenfischer1984 HTML Code decodieren Allgemeine Java-Themen 2
stylegangsta Mehrere html seiten einer Homepage einlesen und als Textdatei ausgeben Allgemeine Java-Themen 14
P HTML Text bearbeiten Allgemeine Java-Themen 1
A Probleme beim auslesen von Quelltext (HTML) Allgemeine Java-Themen 5
OnDemand String aus html einlesen Allgemeine Java-Themen 2
OnDemand Substring einer HTML Seite will nicht Allgemeine Java-Themen 5
S Applet in html laden; InvocationTargetException,.. nur warum ? Allgemeine Java-Themen 0
R HTML Tabelle durchsuchen Allgemeine Java-Themen 3
L Erste Schritte Eclipse und Lokal funktioniert - in HTML nicht! Allgemeine Java-Themen 2
T Keyword Highlighting in HTML Allgemeine Java-Themen 5
B Best Practice HTML Output Optimal implementieren Allgemeine Java-Themen 3
A jEditorPane Html Datei öffnen (code) Allgemeine Java-Themen 3
Y Applet/Html - Wie Java-Methode aufrufen, die einen Parameter erwartet? Allgemeine Java-Themen 3
H HTML Parsing errors Allgemeine Java-Themen 9
P Aktuellen HTML Code auslesen (von JS manipuliert) Allgemeine Java-Themen 3
M HTML-Code von Webseite über Browser oder Console auslesen?? Allgemeine Java-Themen 5
S Robuste Methode um Text von HTML code zu extrahieren..? Allgemeine Java-Themen 6
S Bekomme mit Scanner und URL keine Html-Seite ausgelesen Allgemeine Java-Themen 3
C JEditorPane langsam großes HTML Allgemeine Java-Themen 8
T Kann HTML Datei nicht lesen Allgemeine Java-Themen 3
S HTML-Quelltext nach bestimmter Stelle durchsuchen Allgemeine Java-Themen 2
B HTML Tags in Strings umwandeln Allgemeine Java-Themen 4
S BufferedReader/PrintWriter an einer HTML Allgemeine Java-Themen 6
T HTML Tag Position mittels Pattern ermitteln Allgemeine Java-Themen 7
C Attribute aus HTML Tags auslesen Allgemeine Java-Themen 6
M Wicket Html Allgemeine Java-Themen 2
S Fehler beim ausführen des HTML Allgemeine Java-Themen 7
S Fehler Applet-HTML Allgemeine Java-Themen 5
B suchfunktion in html integrieren Allgemeine Java-Themen 3
DEvent Wieso ist Javadoc mit Html Tags? Allgemeine Java-Themen 47
P RegEx mit HTML Parser für Java möglich? Allgemeine Java-Themen 10
B RTF zu HTML Allgemeine Java-Themen 3
S Von HTML-Seite den Titel bekommen Allgemeine Java-Themen 2
M .jar in HTML einbinden Allgemeine Java-Themen 5
H Kleiner HTML Parser (Facharbeit) Allgemeine Java-Themen 11
K iText, HTML Einrückung im Document, aber nicht im Paragraph Allgemeine Java-Themen 3
J Überprüfen ob URL eine HTML Datei referenziert Allgemeine Java-Themen 4
E Zeilenumbruch html Allgemeine Java-Themen 3
J URLs aus HTML Datei extrahieren Allgemeine Java-Themen 2
G Swing JEditorPaneAppender (Output im HTML-Format) Allgemeine Java-Themen 12
W Java Anwendung in HTML Allgemeine Java-Themen 2
M Html Unit Whitespace-Problem Allgemeine Java-Themen 4
J HTML-Sonderzeichen ersetzen Allgemeine Java-Themen 2
M HTML-Websiten verarbeiten Allgemeine Java-Themen 8
A Index Datei aus HTML-Dateien Allgemeine Java-Themen 7
S HTML => DOM - Welcher Parser für meine Zwecke? Allgemeine Java-Themen 3
I HTML Seite laden Allgemeine Java-Themen 6
W Saubere Lösung für das Auslesen einer Html Seite (Mehrsprachigkeit) Allgemeine Java-Themen 5
M String in Html Text umwandeln Allgemeine Java-Themen 2
S Formatierungen aus HTML-Dokument übernehmen und in Word docx schreiben Allgemeine Java-Themen 3
E HTML File mit Umlaute einlesen Allgemeine Java-Themen 8
T HTML Parser Allgemeine Java-Themen 7
E Regex HTML Tag und Inhalt löschen Allgemeine Java-Themen 4
S Swing mit JEditorPane per HTML auf Bilder in JAR zugreifen. Allgemeine Java-Themen 3
S Regulärer Ausdruck für HTML-Tag Allgemeine Java-Themen 18
H Java Methode zum HTML encodieren/decodieren Allgemeine Java-Themen 2
Daniel_L Bug in Copy-Funktion bei HTML-Editorpane? Allgemeine Java-Themen 4
M JApplet einbinden in HTML Allgemeine Java-Themen 19
F Problem mit regulären Ausdruck in Zusammenhang mit HTML Allgemeine Java-Themen 8
T JavaScript aus HTML im JEditorPane ausführen? Allgemeine Java-Themen 5
S PDF nach HTML oder XML Allgemeine Java-Themen 2
O Tastendrücke in verstecktes HTML-Formular schreiben Allgemeine Java-Themen 4
D Strings von HTML befreien Allgemeine Java-Themen 17
A HTML-Seite aufrufen, drucken und zum Programm zurückkehren Allgemeine Java-Themen 2
E Html tags entfernen optimieren Allgemeine Java-Themen 12
Q API zum Verarbeiten von HTML Allgemeine Java-Themen 4
DerEisteeTrinker PDF mit seiner Formatierung in HTML umwandeln Allgemeine Java-Themen 15
B Java in HTML stellen Allgemeine Java-Themen 11
M id aus HTML (Regex) Allgemeine Java-Themen 7
D HTML mit Java verknüpfen Allgemeine Java-Themen 2
W HTML-Pfad Allgemeine Java-Themen 4
G HTML-Datei einlesen, Plain Text in Textfile speichern Allgemeine Java-Themen 4
A HTML-Seite wieder schließen Allgemeine Java-Themen 2
E JTidy html "hidden" Button drücken Allgemeine Java-Themen 7
faetzminator Regex zur Suche von "value-losen" Attributen in HTML Tags Allgemeine Java-Themen 7
data89 Java und HTML-Seiten mit Bildern - Wie passt das zusammen? Allgemeine Java-Themen 2
C Applet: JFileChooser: PFad an HTML zürückgeben Allgemeine Java-Themen 4
T Webseite (HTML) Parser gesucht Allgemeine Java-Themen 8
Daniel_L RegEx: UBB in HTML konvertieren, Problem Verschachtelung Allgemeine Java-Themen 3
T html Datei in jrxml Datei (JasperReports) umwandeln Allgemeine Java-Themen 6
J Seltsame Exception beim Java Applet einbinden in Html Allgemeine Java-Themen 2
G Import von HTML-Dateien Allgemeine Java-Themen 5
MQue Tidy HTML baum durchlaufen Allgemeine Java-Themen 5
MQue Werte in eine html- Datei schreiben Allgemeine Java-Themen 17

Ähnliche Java Themen

Neue Themen


Oben