Quelltext - Urls filtern

MR.T · 4. Okt 2008

Hallo erstmal

Mein Problem ist folgendes ich versuche über Java ein Programm zu coden welches den Quelltext einer Seite ausliest um danach die urls zu filtern. Mein Problem ist aber das ich es einfach nicht hinbekommen die Urls zu filtern, den Quelltext hab ich schon einmal geschafft runterzuladen und zwar mit:

Code:

package quelltext;

import java.net.URL;
import java.util.Scanner;

public class Main {

    public static void main(String[] args )throws Exception{

       Scanner url = new Scanner(new URL("Url der Seite").openStream()); 
       
          while(url.hasNextLine()) 
                          
                System.out.println(url.nextLine());   
          }

}

das funktioniert auch bis jetzt schön und gut nur weis ich nicht was ich benutzen muss um den Quelltext letztendlich von <a href="http://www nach "> zu filtern da sich der Inhalt der Urls ändert. Wahrscheinlich hab ich die Lösung übersehen da ich damit jetzt 10 stunden verbracht hab und 1000 mal gegoogelt bin ein totaler noob in Java aber hoffe das sich des bald ändert.

Ich hoffe ihr versteht mein Problem und könnt mir helfen im voraus schon mal danke Mr.T

virtualAudio · 4. Okt 2008

Hey,

also ich bin kein großer HTML-Könner,

aber wenn Du nur diese Urls aus den <a> tags suchen willst, dann würd ich eben erstmal nach "<a " und von dort aus nach dessen Ende "/a>" suchen. Dazwischen müsste ein "href" liegen das dann (von einem = und dann einem " gefolgt ) zu Deinem Url führt. Der geht dann wiederrum bis zum nächsten " wobei man "escapte" " (also \") auslassen sollte...wobei...die url Konvention sowas denk ich garnicht zulässt...gibts da nicht diese %irgendwas als Ersatz? Ich hoffe ich hab den Aufbau dieses tags richtig verstanden....wenn ja würd ichs so machen
(schaut lang aus...aber sind nur viele kommentare

)

Code:

import java.util.Vector;

public class AhrefSuche {

	
                public static void main(String[] args) {
	
		String s = "kjfhdj<a href = \"http://www.google.at\" nochwas=\"juhuuu\"sdfs" +
				"dfsdf>ein link</a> und dann stehn da so toole sachen wie <script ty" +
				"pe=\"text/virtualaudio\"></script> und dann auch mal wieder ein" +
				"<a href=\"www.lasmichinruh.dee_ehh\">und noch ein link</a>";
		
		String[] urls = urls(s);
		System.out.println("TestString: '"+s+"'");
		System.out.println("urls:");
		
                                for(String u:urls){
			System.out.println(u);
		}
		
	}

	
	private static String[] urls(String htmlText){
		
		Vector<String> urls = new Vector<String>();
		
		// du suchst anfang und ende vom a-tag
		
		int e = 0; // das brauchen wir um zu wissen von wo wir weitersuchen
		while (true) {

			int a = htmlText.indexOf("<a ", e);
			if(a==-1){
				// nix gefunden
				break;
			}
			System.out.println("atag-Anfang gefunden bei Index = " + a);
			e = htmlText.indexOf("/a>", a);
			if(e==-1){
				// nix gefunden
				break;
			}
			
			// dazwischen muss ein href sein
			String atag = htmlText.substring(a, e);

			
			/*
			 * ich nehm noch die spaces raus, ein url kann sowas meines Wissens
			 * nach eh nicht haben um "href=" && "href =" zu
			 * finden
			 */
			atag = atag.replaceAll(" ", "");

			
			// suche href in atag das \" ist im Endeffekt nur ein "
			int ha = atag.toLowerCase().indexOf("href=\"".toLowerCase());
			ha += "href=\"".length();
			
			
			// wenn wir keinen href Anfang finden suchen wir auch kein Ende
			if (ha == -1) {
				System.err.println("Kein 'href' im a-tag!!");
			} else {

				// suche das ende von href also ein " (ich muss hier \"
				// schreiben wie oben)  wir suchen ab dem gefundenen href
				int he = ha;
				do {
					he = atag.indexOf("\"", he + 1);
				} while (atag.charAt(he - 1) == '\\' || he == -1);

				if (he != -1) {
					// und wenn ich mich nicht irre müsste das dann der url sein
					urls.add(atag.substring(ha, he));
				}
			}
		}
		
		
		// wandelt den Vector noch in ein Array
		return urls.toArray(new String[]{});
	}
}

lg Andi

MR.T · 4. Okt 2008

Ok danke dann versuch ich des mal ob es hinhaut.

Danke für deine mühe :applaus: .

virtualAudio · 4. Okt 2008

Ich bin mir sicher es gibt eine 4 Zeilen-Code Version auch.... wenn du die noch findest... poste sie

0x7F800000 · 4. Okt 2008

also ich bin kein großer HTML-Könner

...und in der java api gibts auch noch ne menge zu entdecken

Diesen ganzen extreme-lowlevel-kram braucht man nicht, für solche simplen sachen gibts in der api schon genug moeglichkeiten, hier sind zwei:

Code:

Code:

//fuer den ersten ansatz:
import java.util.regex.*;

//fuer den zweiten ansatz ( externe jars jdom und jaxen erforderlich)
import org.jdom.*;
import org.jdom.input.*;
import org.jdom.xpath.*;
import java.io.*;
import java.util.*;

class TEST{

	public static String reverse(String s){
		return s.equals("")?"":reverse(s.substring(1))+s.charAt(0);
	}
	
	public static void main(String[] args) throws JDOMException, IOException{
		
		// beispiel-html code
		String html=
			"<html>" +
			"	<div>" +
			"		<h1>Lalalalala</h1>" +
			"		

blbblhabalbalabla [url='www.yahoo.com']yahoo[/url] dbajshdbjadbasdhga</p>" +
			"		[url='www.google.de']google[/url]" +
			"	</div>" +
			"</html>";
		
		System.out.println("Ansatz 1:");
		/*ANSATZ 1: brutal mit regex drauf einpruegeln
		 * nachteile:	man muss zB auf kleinigkeiten wie "" oder '' achten obwohl es in xml dasselbe bedeutet
		*/
		Matcher matcher=Pattern.compile("<a[^<>]*href[\t ]*=[\t ]*[\"|']([^\"']*)[\"|'][^<>]*>").matcher(html);
		while(matcher.find()) System.out.println("treffer="+matcher.group(0)+" url="+matcher.group(1));
		
		System.out.println("\nAnsatz 2:");
		/*ANSATZ 2: etwa mit jdom document bauen, per xpath die a-tags raussuchen
		 * nachteil: die jdom-geschichte ist anfangs ein wenig unuebersichtlich
		 * und man muss sich mit zwei externen jars rumpruegeln
		 * (in javax gibts auch irgendsowas, aber ich find's nicht so intuitiv)
		 */
		Document doc=(new SAXBuilder()).build(new StringReader(html));
		for(Element e:(Collection<Element>)XPath.selectNodes(doc, "//a")){
			System.out.println("element="+e.toString()+" url="+e.getAttributeValue("href"));
		}
	}
}

Die erste funktioniert auf buchstaben-ebene, da lässt man den regex drauf los und holt sich die entsprechenden zeichenketten. Wenn das kein valides xml ist, ist das dem regex vollkommen egal. Wenn du das später in irgendeinen bot reinbauen willst, der auf düsteren verstümmelten seiten herumwandert, dann musst du das wohl auf diese etwa unsauberere art machen, weil es seiten gibt, die eben kein valides xml beinhalten, aber trotzdem irgendwie von browsern wohl oder übel dargestellt werden.

Die zweite möglichkeit setzt voraus, dass die seite zumindest ein gültiges xml-dokument ist. Dann wird das document geparst, und man kann sich gemütlich mit xpath die elemente aussuchen, die man grad haben will.

Ergebnis:

Code:

Ansatz 1:
treffer=<a id='blup' href='www.yahoo.com'> url=www.yahoo.com
treffer=<a href='www.google.de'> url=www.google.de

Ansatz 2:
element=[Element: <a/>] url=www.yahoo.com
element=[Element: <a/>] url=www.google.de

geht beides mit jeweils 2-3 zeilen, wie man sieht...

	Titel	Forum	Antworten	Datum
J	Quelltext mit komischen griechischen Zeichen	Java Basics - Anfänger-Themen	4	19. Feb 2024
J	Java GUI- Objekte Position per Quelltext bestimmen	Java Basics - Anfänger-Themen	4	10. Feb 2020
	Erste Schritte BubbleSort Quelltext funktioniert noch nicht	Java Basics - Anfänger-Themen	1	21. Jan 2020
F	Webseiten Quelltext auslesen	Java Basics - Anfänger-Themen	5	15. Jan 2020
C	Quelltext mit Formatierungs- und Style-Informationen versehen	Java Basics - Anfänger-Themen	7	6. Sep 2018
S	HTML-Quelltext hinter HTTPS	Java Basics - Anfänger-Themen	1	5. Sep 2018
D	Erste Schritte Suche Quelltext	Java Basics - Anfänger-Themen	7	25. Okt 2017
J	QuellText Frage	Java Basics - Anfänger-Themen	1	20. Sep 2015
X	Quelltext einen Tic Tac Toe Spiels erklären	Java Basics - Anfänger-Themen	4	8. Jun 2015
U	Website Quelltext auslesen - Javaskripte im Hintergrund?	Java Basics - Anfänger-Themen	4	3. Apr 2015
T	Quelltext wird nicht compiliert obwohl er Fehlerfrei ist.	Java Basics - Anfänger-Themen	4	9. Mrz 2015
O	Java will mir den Quelltext nich zu Bytecode Compilieren	Java Basics - Anfänger-Themen	24	29. Okt 2014
J	Quelltext einer Homepage auslesen	Java Basics - Anfänger-Themen	14	25. Aug 2014
R	Problem mit Quelltext : Kommazeichen	Java Basics - Anfänger-Themen	7	11. Nov 2013
E	Quelltext für Grafik verschwindet	Java Basics - Anfänger-Themen	9	18. Dez 2012
R	Quelltext sachen rausfiltern	Java Basics - Anfänger-Themen	16	9. Jun 2012
R	Input/Output Formular absenden und Quelltext auslesen	Java Basics - Anfänger-Themen	5	31. Mai 2012
A	Komentieren von Quelltext	Java Basics - Anfänger-Themen	12	22. Mrz 2012
D	Quelltext richtig verstanden?	Java Basics - Anfänger-Themen	7	20. Jan 2012
E	Korrekter Quelltext?	Java Basics - Anfänger-Themen	17	6. Jan 2012
F	HttpURLConnection Fehler beim Quelltext holen	Java Basics - Anfänger-Themen	6	16. Dez 2011
K	Erste Schritte quelltext hilfe anfänger	Java Basics - Anfänger-Themen	8	14. Dez 2011
M	Quelltext auslesen und diesen in einen String schreiben	Java Basics - Anfänger-Themen	3	23. Nov 2011
G	Internet-Zugriff // URL posten, Quelltext einlesen	Java Basics - Anfänger-Themen	5	4. Nov 2011
E	Compiler-Fehler Quelltext aus Buch erzeugt Fehler	Java Basics - Anfänger-Themen	3	17. Aug 2011
H	Methoden Problem mit get-methode im Quelltext	Java Basics - Anfänger-Themen	17	27. Feb 2011
B	Quelltext einlesen	Java Basics - Anfänger-Themen	12	18. Jan 2011
L	Quelltext von vorgefertigten Klassen ansehen	Java Basics - Anfänger-Themen	4	30. Sep 2010
	Quelltext einer Internetseite auf JTextArea anzeigen	Java Basics - Anfänger-Themen	4	9. Jul 2010
K	Passage im Quelltext verstehen	Java Basics - Anfänger-Themen	2	21. Jun 2010
M	Quelltext kürzen	Java Basics - Anfänger-Themen	8	19. Apr 2010
F	Aus UML Diagramm Quelltext	Java Basics - Anfänger-Themen	7	11. Dez 2009
A	Quelltext	Java Basics - Anfänger-Themen	21	29. Okt 2009
N	kommentierter Quelltext zum Üben erwünscht	Java Basics - Anfänger-Themen	6	20. Sep 2009
R	Quelltext einfügen und kompilieren	Java Basics - Anfänger-Themen	4	20. Aug 2009
D	Quelltext zu vereinfachen?	Java Basics - Anfänger-Themen	4	30. Jun 2009
G	Mit Java Quelltext auf Element untersuchen.	Java Basics - Anfänger-Themen	5	26. Feb 2009
G	Brauche ein paar erklärungen zu Quelltext	Java Basics - Anfänger-Themen	5	27. Jan 2009
Y	Einfachen Quelltext in UML darstellen mit Eclipse	Java Basics - Anfänger-Themen	8	20. Jan 2009
S	Verständnissprobleme mit Quelltext - Make Typ	Java Basics - Anfänger-Themen	13	9. Sep 2008
G	Quelltext von Methoden in der Klasse Math	Java Basics - Anfänger-Themen	11	26. Jun 2008
D	Quelltext schützen ?	Java Basics - Anfänger-Themen	16	27. Nov 2007
M	quelltext html-seite speichern + links speichern	Java Basics - Anfänger-Themen	2	17. Okt 2007
B	NSD-Diagramme aus Java-Quelltext erstellen!	Java Basics - Anfänger-Themen	3	22. Aug 2007
P	Quelltext nicht kompilierbar	Java Basics - Anfänger-Themen	15	22. Jul 2007
I	translate.java - kein sichtbarer fehler im quelltext	Java Basics - Anfänger-Themen	18	19. Mai 2007
L	Quelltext problem	Java Basics - Anfänger-Themen	46	13. Jan 2007
G	Quelltext compilieren und öffnen	Java Basics - Anfänger-Themen	11	8. Nov 2006
M	Quelltext vom Applet	Java Basics - Anfänger-Themen	20	28. Jun 2006
M	brauche hilfe mit folgendem quelltext	Java Basics - Anfänger-Themen	7	26. Jun 2006
V	Quelltext einer Homepage einlesen	Java Basics - Anfänger-Themen	12	20. Mai 2006
N	Quelltext durchsuchen ggfls Alarm schlagen.	Java Basics - Anfänger-Themen	29	16. Mrz 2006
L	quelltext kompilieren	Java Basics - Anfänger-Themen	2	22. Jan 2006
G	eigenen Quelltext ausgeben	Java Basics - Anfänger-Themen	8	6. Jan 2006
G	Html Quelltext auslesen der passwortgeschützt ist	Java Basics - Anfänger-Themen	4	29. Aug 2005
R	Quelltext einer HTML-Seite auslesen	Java Basics - Anfänger-Themen	2	16. Jun 2005
M	Wo liegt der Quelltext von System.out.println()	Java Basics - Anfänger-Themen	3	22. Mai 2005
M	Handy Programm, kompletter Quelltext.Methodische Fehler?	Java Basics - Anfänger-Themen	3	7. Mrz 2005
S	Quelltext mit Fehlern	Java Basics - Anfänger-Themen	12	25. Sep 2004
U	Abkürzung in Quelltext :((	Java Basics - Anfänger-Themen	7	4. Jan 2004
0	Alle URLs aus einer Zeile extrahieren?	Java Basics - Anfänger-Themen	6	24. Jul 2009
G	Lambda Filtern wie im SQL	Java Basics - Anfänger-Themen	11	13. Aug 2024
V	JSON-Objs aus JSON-Obj filtern und löschen (Manipulation ohne Kenntnis der vollst. Struktur)	Java Basics - Anfänger-Themen	12	30. Mrz 2023
P	Datei einlesen, nach Begriff filtern und in Datei ausgeben. Problem Standardausgabe über Konsole	Java Basics - Anfänger-Themen	19	29. Okt 2021
L	Zahlungen nach Monat filtern	Java Basics - Anfänger-Themen	2	19. Apr 2021
L	Texte filtern	Java Basics - Anfänger-Themen	36	19. Mai 2020
	Bestimmten Integer Wert aus Array filtern	Java Basics - Anfänger-Themen	2	4. Mai 2018
S	Integer aus Array filtern	Java Basics - Anfänger-Themen	4	23. Mrz 2018
P	Signal Filtern	Java Basics - Anfänger-Themen	1	27. Mrz 2017
J	Objekttypen vergleichen und filtern	Java Basics - Anfänger-Themen	6	19. Okt 2016
K	Lambda - kompliziertes filtern	Java Basics - Anfänger-Themen	5	8. Jul 2016
	ObservableList filtern	Java Basics - Anfänger-Themen	5	21. Mai 2016
N	Collection sortieren/ filtern	Java Basics - Anfänger-Themen	7	28. Feb 2016
J	Textdatei filtern und bearbeiten	Java Basics - Anfänger-Themen	1	17. Jul 2015
B	Sortieren und Filtern von Tabellen	Java Basics - Anfänger-Themen	6	17. Mai 2015
B	Input/Output output Datenstrom filtern	Java Basics - Anfänger-Themen	0	4. Jun 2014
B	Klassen Doppelte werte Filtern XML, Datenbank und DOM	Java Basics - Anfänger-Themen	3	2. Sep 2013
	String filtern	Java Basics - Anfänger-Themen	22	7. Dez 2012
G	Palindrome aus Sätzen filtern	Java Basics - Anfänger-Themen	53	18. Okt 2012
S	Liste speziell filtern	Java Basics - Anfänger-Themen	20	23. Jul 2012
	CharArrayWriter filtern	Java Basics - Anfänger-Themen	4	10. Nov 2011
S	Datensätze filtern	Java Basics - Anfänger-Themen	3	2. Sep 2011
A	String mittels RegEx filtern	Java Basics - Anfänger-Themen	13	25. Mai 2011
F	String filtern und Systeminfos	Java Basics - Anfänger-Themen	19	7. Apr 2011
X	Strings filtern?	Java Basics - Anfänger-Themen	10	30. Jan 2011
J	Aus einem String unbekannte zeichen filtern	Java Basics - Anfänger-Themen	11	30. Jan 2011
J	Regex + Match Zahlen filtern	Java Basics - Anfänger-Themen	5	13. Dez 2010
S	LinkedList<String[]> filtern und sortieren	Java Basics - Anfänger-Themen	9	11. Okt 2010
S	String filtern mit replace -> Problem	Java Basics - Anfänger-Themen	6	27. Jan 2010
M	Filtern von Dateinamen	Java Basics - Anfänger-Themen	7	15. Jan 2010
G	Zahlen aus String filtern?	Java Basics - Anfänger-Themen	3	17. Jan 2009
G	Filtern von nicht-darstellbaren Zeichen	Java Basics - Anfänger-Themen	3	31. Dez 2008
M	ordner überwachen und dateien filtern	Java Basics - Anfänger-Themen	3	11. Okt 2008
G	String "filtern"	Java Basics - Anfänger-Themen	2	30. Mai 2008
S	Liste oder Array filtern	Java Basics - Anfänger-Themen	2	23. Mrz 2008
N	Textdatei einlesen, Filtern und Splitten	Java Basics - Anfänger-Themen	4	27. Feb 2008
J	Mailadresse aus String filtern	Java Basics - Anfänger-Themen	2	20. Feb 2008
C	Dateinamen Filtern	Java Basics - Anfänger-Themen	10	17. Jan 2008
M	Kann man im Filter nach mehreren Strings filtern lassen	Java Basics - Anfänger-Themen	11	5. Nov 2007
M	Dateien aus Verzeichnis filtern, aber nicht nach Endung	Java Basics - Anfänger-Themen	59	31. Aug 2007

Quelltext - Urls filtern

MR.T

Mitglied

virtualAudio

Aktives Mitglied

MR.T

Mitglied

virtualAudio

Aktives Mitglied

0x7F800000

Top Contributor

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen