Websiten auslesen, Browser stellt Links anders da.

xip

Bekanntes Mitglied
Hallo,

ich beschäftige mich in letzter Zeit damit Websiten mit Java zu untersuchen. Jetzt ist mir aufgefallen wenn ich einen Link etwas
genauer anschaue, kommt so aus meinem Java Programm:

forumdisplay.php?s=0153e9ce546489713284ce354&do=markread

Aber in meinem Browser entfällt dieses s= . Da schaut das so aus:

forumdisplay.php?do=markread

Warum das den??? Habt ihr da eine Idee?

Dank euch.
 

faetzminator

Gesperrter Benutzer
Wenn Cookies auf dem Client geschrieben werden können, wird die Session ID meist in ein solches verlagert. Werden Cookies nicht unterstützt, wird diese per GET (URL) oder POST ((X)HTML Formular) mitgeschickt.
 

xip

Bekanntes Mitglied
dank dir.

gibs da reservierte Bereiche für die Links für dieses GET? Oder diese Session ID?

Also, z.B. das bei der ID immer ein "s" als Variable kommt und nicht ein "k" z.B.

Dann könnte ich ja einfach dieses s und die Session ID generell weglöschen?
 

xip

Bekanntes Mitglied
oder besser noch, wie könnte ich mein Java Programm (Methode) erweitern damit das erst gar nicht mitgesendet wird?`

Java:
private static String downloadPage(URL pageUrl) 
{
        try {
            URLConnection urlc = pageUrl.openConnection();
            urlc.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.1.7) Gecko/20091221 Firefox/3.5.7");

            BufferedReader reader =
                    new BufferedReader(new InputStreamReader(
                    urlc.getInputStream()));
            

            String line;
            StringBuffer pageBuffer = new StringBuffer();
            while ((line = reader.readLine()) != null) {
                pageBuffer.append(line);
            }
            
            return pageBuffer.toString();
        } catch (Exception e) {
        }
        
        return null;
}
 

xip

Bekanntes Mitglied
oh man, hätte nicht gedacht das ich auf sowas spezielles eine gute Antwort kriege. Ich wurde wirklich überrascht!!!

Vielen Dank euch beiden.

Mein Problem scheint gelöst.

Java:
private static String downloadPage(URL pageUrl) 
{
        try {
            URLConnection urlc = pageUrl.openConnection();
            urlc.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.1.7) Gecko/20091221 Firefox/3.5.7");
            urlc.setRequestProperty("Cookie", "foo=bar"); 
 
            BufferedReader reader =
                    new BufferedReader(new InputStreamReader(
                    urlc.getInputStream()));
            
 
            String line;
            StringBuffer pageBuffer = new StringBuffer();
            while ((line = reader.readLine()) != null) {
                pageBuffer.append(line);
            }
            
            return pageBuffer.toString();
        } catch (Exception e) {
        }
        
        return null;
}
 

xip

Bekanntes Mitglied
eigentlich hatte sich die Sache schon erledigt, aber jetzt hat sich noch was Neues unerwartetes ergeben.

Ich betreibe ein vBulletin Website und ich wollte mit meinem Java Programm alles da drin druchsuchen. Quasi einen Crawler.

Wenn ich den da durchlaufen lasse, kommen nach einiger Zeit immer komsiche Links die immer länger werden. Das nimmt keine Ende.
Hier ein Beispiel:
Java:
ttp://meineforum.de/upload/showthread.php?t=1&goto=nextnewest&nojs=1&nojs=1&nojs=1&nojs=1&nojs=1

auch diesen Link kann ich zwar im Browser aufrufen, aber so einen kriege ich nicht von meiner Website.

Könnt ihr mir auch da weiterhelfen?

Vielen Dank.
 
M

maki

Gast
Du Encodierst die URL falsch, aus [c]&[/c] wird [c]&[/c], was auch wieder ein [c]&[/c] enthält, usw.
 

xip

Bekanntes Mitglied
vielen Dank, genau das wars.

Aber, das Problem habe ich jetzt behoben und da tauchen gleich edliche neue gleicher Natur auf, gibt es irgendeine Möglichkeit, wenn ich links habe wo eine komische Codierung drinnen steht, das die gleich korrekt umgewandelt werden?

z.B.

http:// wird bei mir zu http%3A%2F%2F

oh man, wenn ich das alles behandele werde ich ja irre? Gibs da nicht ne Klasse für?

Dank euch
 

xip

Bekanntes Mitglied
die Website lade ich oben mit dem Code, und dann suche ich mit einem Pattern nach Links.

Klappt auch super.

Gerade bin ich auf die static Methode URLDecoder.decode(String) gestoßen. Die scheint mein Problem zu lösen. Aber die ist deprecated. Gibs da was neues dafür?
 
Ähnliche Java Themen
  Titel Forum Antworten Datum
M HTML-Websiten verarbeiten Allgemeine Java-Themen 8
L Input/Output Email mit großer Pdf Anhang auslesen? Allgemeine Java-Themen 6
Ernesto95 HTTP Mit JavaScript erzeugte dynamische Webseite auslesen und nach einem Schlüsselwort durchsuchen Allgemeine Java-Themen 6
K Bildschirm auslesen/ Text erkennen Allgemeine Java-Themen 5
torresbig Url nach Webseiten-Login auslesen & Daten an Webseite senden Allgemeine Java-Themen 9
S .exe Datei/Programm auslesen? Allgemeine Java-Themen 2
T INI - Einträge auslesen Allgemeine Java-Themen 6
H Auslesen eines (LDAP-)Attributs in Active Directory Allgemeine Java-Themen 2
O PDF auslesen und verändern, was ist besser iText oder PDFBox ? Allgemeine Java-Themen 9
Robertop Status von Caps- und NumLock auslesen Allgemeine Java-Themen 1
Master3000 Java Konsole über Buffered Reader Zeilenweise auslesen ? Allgemeine Java-Themen 26
G Mac Package auslesen Allgemeine Java-Themen 17
W Versionsnummer auslesen - Regex ist zickig Allgemeine Java-Themen 2
F Junit Test + Cucumber - JSON auslesen und in einem weiteren Schritt nutzen Allgemeine Java-Themen 0
M verschiedene Dokumente auslesen Allgemeine Java-Themen 1
Gaudimagspam CSV-Datei auslesen in Java Allgemeine Java-Themen 7
L Dateien richtig auslesen Allgemeine Java-Themen 6
F WireGuard Status auslesen Allgemeine Java-Themen 3
B .txt Datei erstellen und auslesen bzw. schreiben Allgemeine Java-Themen 6
I DOM-Parser - Element im Element an bestimmten Stellen auslesen Allgemeine Java-Themen 1
N Txt Datei auslesen. Allgemeine Java-Themen 5
O xlsx Datei auslesen mit POI Apache liest keine LEERZELLEN Allgemeine Java-Themen 6
O xlsx Datei auslesen mit POI von Apache wirft seltsamen Fehler. Allgemeine Java-Themen 11
J Information von getSource() Objekt auslesen Allgemeine Java-Themen 1
V EMail, Attachments auslesen von einer Email Allgemeine Java-Themen 0
K Aus String zwei Jahreszahlen auslesen Allgemeine Java-Themen 18
E CSV mit Text und Binärdaten auslesen Allgemeine Java-Themen 7
x46 Webseite in Java auslesen Allgemeine Java-Themen 2
M Html Seite auslesen Allgemeine Java-Themen 16
S Hilfe bei dem Auslesen einer YAML Datei Allgemeine Java-Themen 8
J Fenstergröße eines anderen Programmes auslesen Allgemeine Java-Themen 9
B Cookie auslesen Allgemeine Java-Themen 3
B Input/Output Programm zum Auslesen/Beschreiben von Textdateien, wie Geschwindigkeit erhöhen? Allgemeine Java-Themen 18
J Variablen Mehrere int-variablen in txt abspeichern und danach wieder auslesen Allgemeine Java-Themen 1
J Daten aus Website-Quelltext auslesen Allgemeine Java-Themen 62
J Teil einer URL auslesen Allgemeine Java-Themen 13
denny86 NetBeans Ordnernamen rekursiv auslesen und in Variable verarbeiten Allgemeine Java-Themen 38
C Atfx mit Hilfe von OpenAtfx auslesen Allgemeine Java-Themen 1
C Position von Pixeln in Bilder auslesen Allgemeine Java-Themen 2
M aktive WLAN Teilnehmer auslesen? Allgemeine Java-Themen 6
X JSONObject auslesen und in HashMap hinterlegen Allgemeine Java-Themen 16
S Kann man mit Java auf einem lokalen PC/Mac Benutzergruppen auslesen und Rechte ändern? Allgemeine Java-Themen 11
C Webseite auslesen Allgemeine Java-Themen 3
D Best Practice Gesamten Bildschirminhalt auslesen und Email schicken sobald kein Pixel sich ändert Allgemeine Java-Themen 11
A Erste Schritte Daten aus einer Website auslesen Allgemeine Java-Themen 7
J Bestimmte Zeile aus Textdatei auslesen Allgemeine Java-Themen 18
G Aus JTextField Zahlen auslesen und random generieren Allgemeine Java-Themen 10
M Tastatureingabe von Sondertasten auslesen Allgemeine Java-Themen 6
C Auslesen auslösen über Button-Click Allgemeine Java-Themen 8
M xlsx File auslesen Exception occured Allgemeine Java-Themen 13
U OOP Warum kann ich aus meiner Methode keinen String auslesen Allgemeine Java-Themen 4
J Auslesen Daten Java/HTML Allgemeine Java-Themen 15
4a61766120617274697374 PDF iText Wort Koordinaten auslesen Allgemeine Java-Themen 1
KeVoZ_ Bestimmte Zeile aus Console finden & auslesen Allgemeine Java-Themen 2
T Url aus txt Datei auslesen und öffnen? Allgemeine Java-Themen 4
N Werte aus Hashmap auslesen und übertragen Allgemeine Java-Themen 8
KeVoZ_ Properties mit String auslesen Allgemeine Java-Themen 11
I HTML einer Website auslesen liefert nur head Allgemeine Java-Themen 6
D Aktuell installierte Java Version auslesen unter Windows Allgemeine Java-Themen 5
M Parameter auslesen im Servlet Allgemeine Java-Themen 0
M Input/Output USB Geräteinstanzkennung auslesen Allgemeine Java-Themen 3
W 2D-Grafik Erstellungsdatum JPG direkt aus Header (EXIF) auslesen. Allgemeine Java-Themen 5
M Daten aus anderen Programmen auslesen Allgemeine Java-Themen 2
T Datei Byteweise auslesen Allgemeine Java-Themen 1
T Datentypen MNIST Datenbank auslesen (.gz) Allgemeine Java-Themen 0
T Ini Datei auslesen Allgemeine Java-Themen 3
J Temperatur aus bytes auslesen. Allgemeine Java-Themen 13
I JSoup Class auslesen Allgemeine Java-Themen 1
Bluedaishi Textdateien auslesen Allgemeine Java-Themen 12
T ELM327 OBD2 auslesen Allgemeine Java-Themen 0
D Double aus String auslesen Allgemeine Java-Themen 8
Z Zahlen aus Bild auslesen Allgemeine Java-Themen 1
A interaktives PDF auslesen/auswerten? Allgemeine Java-Themen 0
G Daten aus Website auslesen Allgemeine Java-Themen 7
S CSV Eintrag der nächsten Zeile auslesen funktioniert nicht Allgemeine Java-Themen 8
I Java FX JsonObjekt Children auslesen Allgemeine Java-Themen 23
M RXTX Details auslesen Allgemeine Java-Themen 6
N Input/Output Website Text auslesen und bestimmte Zeilen wiedergeben Allgemeine Java-Themen 4
X HTTP Auslesen der Ergebnisse von einer Webseite und in eine Liste packen Allgemeine Java-Themen 1
J Wav-Datei aus .jar auslesen Allgemeine Java-Themen 7
J Daten aus GUI auslesen und in Objekte umwandeln Allgemeine Java-Themen 6
D CSV Datei auslesen Allgemeine Java-Themen 23
N Werte aus Arrays auslesen funktioniert nicht Allgemeine Java-Themen 5
J Java JSON-Datei aus .Zip auslesen und Download mit Progress Bar Allgemeine Java-Themen 20
V Tooltips mit Java auslesen Allgemeine Java-Themen 1
I Inhalt einer Website auslesen Allgemeine Java-Themen 6
A JTable - CellRange auslesen Allgemeine Java-Themen 2
V 2d-Barcodes mit zxing auslesen Allgemeine Java-Themen 2
A Auslesen einer Datei sowie ausgeben als Liste in App Allgemeine Java-Themen 5
K Website in Programm einbinden und auslesen Allgemeine Java-Themen 2
M Image auslesen Allgemeine Java-Themen 2
S Zahlen aus (String mit zahlen) immer wieder neu auslesen Allgemeine Java-Themen 5
T datei auslesen ind der richtigen reihenfolge Allgemeine Java-Themen 2
A Probleme beim auslesen von Quelltext (HTML) Allgemeine Java-Themen 5
I Methoden Quellcode auslesen (Refelction o.ä.) Allgemeine Java-Themen 5
B Compiler-Fehler NullPointerException beim Auslesen von .lang-Datei Allgemeine Java-Themen 3
A Metadaten von Bildern auslesen und verändern Allgemeine Java-Themen 5
M InputStream auslesen Allgemeine Java-Themen 1
B Fehler beim Auslesen von Einstellungen. Zwei ähnliche Blöcke, nur eins geht. Allgemeine Java-Themen 5
I Best Practice Properties auslesen und splitten (RegExp?) Allgemeine Java-Themen 0

Ähnliche Java Themen

Neue Themen


Oben