Hi liebes Java-Forum, bisher habe ich Webseiten immer mit folgendem Script eingelesen:
Das hat soweit auch immer super funktioniert und habe dann den Quelltext der Seite zurück bekommen.
Leider habe ich jetzt eine Website mit xml Code dazwischen, und dieser wird von der Funktion ignoriert.
Sieht ungefähr so aus:
[XML]
<rdf
escription rdf:about="http://blabla"><j.5:hasMeasurementProperty rdf:eID="1111"/>
<rdf:typerdf:resource="http://blablabla"/></rdf
escription>
[/XML]
Somit bekomm ich lediglich den html Teil zurück.
Ausgabe:
http://blabla
http://blablabla
Die ID "1111" kann ich aber nicht aus dem Quelltext lesen weil sie mit dem XML Code verschwindet beim auslesen?!
Leider brauch ich aber auch die Informationen des XML Teils.
Habt ihr eine Idee was ich machen kann damit ich auch den XML Teil zurückbekomme?
Vielen Dank im Voraus.
Gruß
Kumaro
Java:
public String getStrFromUrl(String surl) {
final String userAgent = "Mozilla/5.0 (Windows; U; Windows NT 5.1; de; rv:1.8.1.12) Gecko/20080201 Firefox/2.0.0.12";
try {
URL url = new URL(surl);
URLConnection conn = url.openConnection();
conn.addRequestProperty("User-Agent", userAgent);
BufferedReader in = new BufferedReader(new InputStreamReader(
conn.getInputStream()));
String str;
StringBuilder builder = new StringBuilder(1024);
while ((str = in.readLine()) != null) {
builder.append(str);
builder.append("\n"); //damit es hinterher auch so aussieht wie vorher ;-)
}
in.close();
//Test-Output
// System.out.println(builder.toString());
System.out.println("Seite wurde eingelesen.");
return builder.toString();
} catch (MalformedURLException e) {
System.out.println(e.getMessage());
} catch (IOException e) {
System.out.println(e.getMessage());
}
return "Error";
}
Das hat soweit auch immer super funktioniert und habe dann den Quelltext der Seite zurück bekommen.
Leider habe ich jetzt eine Website mit xml Code dazwischen, und dieser wird von der Funktion ignoriert.
Sieht ungefähr so aus:
[XML]
<rdf
<rdf:typerdf:resource="http://blablabla"/></rdf
[/XML]
Somit bekomm ich lediglich den html Teil zurück.
Ausgabe:
http://blabla
http://blablabla
Die ID "1111" kann ich aber nicht aus dem Quelltext lesen weil sie mit dem XML Code verschwindet beim auslesen?!
Leider brauch ich aber auch die Informationen des XML Teils.
Habt ihr eine Idee was ich machen kann damit ich auch den XML Teil zurückbekomme?
Vielen Dank im Voraus.
Gruß
Kumaro