aus einer Datei lesen?

Haubitze_Broese · 25. Mai 2010

Hallo,

sitze an einem Crawler...also er durchsucht Webseiten nach Links und speichert sie in einer txt.
Jetzt soll er die gespeicherten Links wieder aufrufen und da wieder das gleiche machen...aber nur bei Links bei denen er nochnicht war. Also müsste er bei jeden Link vorm öffen überprüfen ob der schon in der Liste steht.
Habt ihr ein paar Ideen wie ich das am besten angehe?
Bin für alles zu dankbar...Tips, Codeschnipsel und co.

MfG

hier noch mein Code bisher...

Java:

package crawler;



import java.io.BufferedReader;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;

import java.net.URL;

import java.util.logging.Level;
import java.util.logging.Logger;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Master {
    public Master() {
        Getsite();
    }

    public void Getsite() {
        try {
            System.out.println("Website (ex. http://www.yoursite.com):");

            String         text   = null;
            BufferedReader reader = new BufferedReader(new InputStreamReader(System.in));

            text = reader.readLine();

            try {
                URL            url  = new URL(text);
                BufferedReader br   = new BufferedReader(new InputStreamReader(url.openStream()));
                String         read = "";

                while (br.ready()) {
                    read += br.readLine();
                }

                br.close();

                Pattern          p    = Pattern.compile("<a.*?href=\"http://([^\"]+)\".*?>([\\w]+?)</a>");
                Matcher          m    = p.matcher(read);
                File             file = new File("ok.txt");
                FileOutputStream fout = new FileOutputStream(file);

                while (m.find()) {
                    String write = "http" + "://" + m.group(1) + "\r\n";

                    fout.write(write.getBytes());
                }

                fout.close();
                System.out.println("Links succesfully saved in file ok.txt");
            } catch (IOException e) {
                e.printStackTrace();
            }
        } catch (IOException ex) {
            Logger.getLogger(Master.class.getName()).log(Level.SEVERE, null, ex);
        }
    }
}

faetzminator · 25. Mai 2010

verwende ein [c]Set[/c], z.B. ein HashSet (Java Platform SE 6). Dieses kannst du wenn nötig in eine Datei serialisieren bzw. wieder deserialisieren.

Gast2 · 25. Mai 2010

Java:

                while (br.ready()) {
                    read += br.readLine();
                }

Ein wenig offtopic: Nimm dafür lieber einen StringBuilder. Ansonsten legts dir in jedem Schleifendurchlauf einen neuen String an wo immer eine Zeile angehängt ist.

Haubitze_Broese · 25. Mai 2010

ok wie er z.B. die erste Zeile aus der Datei list bekomme ich so hin:

Java:

FileReader fr = new FileReader("ok.txt");
    BufferedReader br = new BufferedReader(fr);

    String zeile1 = br.readLine();
    System.out.println(zeile1);

aber wie schaffe ich es das er automatisch jede zeile liest und sie wieder öffnet und die Links in ok.txt speichert?
Der müsste dann ja eig. unendlich weit durchlaufen können...

stareagle · 25. Mai 2010

Hallo,

readLine liefert null, wenn das Ende des Streams erreicht ist. Das heißt du brauchst ein ähnliches Konstrukt wie dieses:

Java:

while((String line = br.readLine()) != null) {
  //Tue irgendwas mit line
}

Solche Dinge sind übrigens in diesem Werk sehr gut erklärt: Galileo Computing :: Java ist auch eine Insel (8. Auflage)

Gruß

Stareagle

Haubitze_Broese · 26. Mai 2010

Ok, ich verzweifel hier grad ein bisschen...er liest jetzt die Links aus der Datei (ok.txt)...aber wie schaffe ich es das die Links mit meinem Crawler wieder öffnet und alle neuen Links in die Datei schreibt?

Java:

package crawler;

import java.io.*;
import java.net.URL;
import java.util.logging.Level;
import java.util.logging.Logger;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

class ReadFile3
{
  public static void main(String[] args) throws IOException
  {
    FileReader fr = new FileReader("ok.txt");
    BufferedReader br2 = new BufferedReader(fr);

    String zeile = "";

    while( (zeile = br2.readLine()) != null )
    {
      System.out.println(zeile);
    }

            try {
                URL            url  = new URL(zeile);
                BufferedReader br   = new BufferedReader(new InputStreamReader(url.openStream()));
                String         read = "";

                while (br.ready()) {
                    read += br.readLine();

                }

                br.close();

                Pattern          p    = Pattern.compile("<a.*?href=\"http://([^\"]+)\".*?>([\\w]+?)</a>");
                Matcher          m    = p.matcher(read);
                File             file = new File("ok.txt");
                FileOutputStream fout = new FileOutputStream(file);

                while (m.find()) {
                    String write = "http" + "://" + m.group(1) + "\r\n";

                    fout.write(write.getBytes());

                }

                fout.close();
                

            } catch (IOException e) {
                e.printStackTrace();
            }
        
        }





    }

Haubitze_Broese · 27. Mai 2010

Ok, ich habe es hinbekommen...jetzt liest er die erste ein und öffnet dann alles im Html-Code enthaltenen Links...und so weiter. Die besuchten Links werden dann in der ok.txt gespeichert.
aber nach ein paar Minuten kommen folgende Fehlermeldungen(habe auf News, Tests, Tipps, Cheats, Lösungen und Videos zu PC-Spielen - PC GAMES.DE gestartet):

Code:

run:
java.io.FileNotFoundException: http://extreme.pcgameshardware.de/newreply.php?do=newreply&amp;t=102842
        at sun.net.www.protocol.http.HttpURLConnection.getInputStream(HttpURLConnection.java:1311)
        at java.net.URL.openStream(URL.java:1010)
        at crawler.ReadFile3.main(readfile.java:54)
java.io.FileNotFoundException: http://www.pcgames.de/Heft-Archiv/
        at sun.net.www.protocol.http.HttpURLConnection.getInputStream(HttpURLConnection.java:1311)
        at java.net.URL.openStream(URL.java:1010)
        at crawler.ReadFile3.main(readfile.java:54)

er macht trotzdem weiter aber was sagen mir diese Fehler und wie bekomme ich sie weg oder wie kann ich sie umgehen?

und noch eine Frage wie sieht so eine Abfrage, überprüfe ob der Link schon in der Liste ist wenn ja überspringe ihn, in meinem Beispiel aus?

mein Prog:

Java:

package crawler;

import java.io.*;
import java.net.URL;
import java.util.logging.Level;
import java.util.logging.Logger;
import java.util.regex.Matcher;
import java.util.regex.Pattern;










class ReadFile3
{
  public static void main(String[] args) throws IOException
  {


           /* System.out.println("Website (ex. http://www.yoursite.com):");

            InputStreamReader eingabe = new InputStreamReader(System.in);
            BufferedReader ein = new BufferedReader(eingabe);
            File out = new File("ok.txt");

            
            FileOutputStream ausgabe = new FileOutputStream(out);
            DataOutputStream raus = new DataOutputStream(ausgabe);
            String s = ein.readLine();
            while (!s.equals(".")) {
                raus.writeBytes(s+"\n");
                s = ein.readLine();
       

            }

*/
    FileReader fr = new FileReader("ok.txt");
    BufferedReader br2 = new BufferedReader(fr);

    String zeile = "";

    while( (zeile = br2.readLine()) != null )
    
        
            try {
                URL            url  = new URL(zeile);
                BufferedReader br   = new BufferedReader(new InputStreamReader(url.openStream()));
                String         read = "";

                while (br.ready()) {
                    read += br.readLine();

                }

                

                Pattern          p    = Pattern.compile("<a.*?href=\"http://([^\"]+)\".*?>([\\w]+?)</a>");
                Matcher          m    = p.matcher(read);
                FileOutputStream fout = new FileOutputStream("ok.txt",/*append*/true);

                while (m.find()) {
                    String write = "http" + "://" + m.group(1) + "\r\n";

                    fout.write(write.getBytes());

                }

                
                

            } catch (IOException e) {
                e.printStackTrace();
            }
        
        }


    }

Danke!

	Titel	Forum	Antworten	Datum
K	Mit Scanner aus einer txt Datei lesen und jede Person mit name, vorname, geburtsdatum speichern	Java Basics - Anfänger-Themen	5	15. Mai 2015
E	Input/Output Property-Datei aus einer Zip lesen in in einer anderen Zip-Datei ist	Java Basics - Anfänger-Themen	3	6. Mrz 2015
D	Problem beim Lesen einer txt-Datei	Java Basics - Anfänger-Themen	8	20. Okt 2014
M	Wie sämtliche Schlüssel und Attibutwerte aus einer Propertie Datei lesen?	Java Basics - Anfänger-Themen	3	4. Aug 2014
Z	Problem beim Lesen und Schreiben einer Datei	Java Basics - Anfänger-Themen	10	28. Aug 2013
C	Wörter aus einer txt datei lesen	Java Basics - Anfänger-Themen	19	6. Feb 2012
M	line.separator: Problem beim Lesen einer Datei	Java Basics - Anfänger-Themen	11	16. Nov 2009
	Bestimmte Zeilen aus einer HTML Datei lesen	Java Basics - Anfänger-Themen	8	21. Sep 2009
M	Probleme mit dem Lesen einer m3u-Datei	Java Basics - Anfänger-Themen	8	26. Mai 2009
T	Zahlen aus einer Datei lesen	Java Basics - Anfänger-Themen	3	13. Sep 2007
B	Wie eine bestimmte Zeile einer Txt-Datei lesen ?	Java Basics - Anfänger-Themen	5	3. Sep 2007
H	Streams etc. erster Versuch Zeilen aus einer Datei zu lesen	Java Basics - Anfänger-Themen	6	28. Aug 2007
T	Exception-Handling beim Lesen einer XML-Datei mit XMLDecoder	Java Basics - Anfänger-Themen	4	30. Jun 2007
C	Komische Zeichen beim Lesen aus einer .reg-Datei	Java Basics - Anfänger-Themen	2	11. Aug 2006
M	Zufällige Zeile aus einer Datei lesen	Java Basics - Anfänger-Themen	2	3. Feb 2006
J	Lesen einer Datei in einen String oder Char?	Java Basics - Anfänger-Themen	3	19. Dez 2005
V	Beim lesen aus einer Datei bekomme ich fehlerhafte Strings.	Java Basics - Anfänger-Themen	2	22. Sep 2005
D	wie kann ich gcc aus einer .java datei heraus aufrufen?	Java Basics - Anfänger-Themen	2	24. Dez 2024
P	Welches SDK für das erstellen einer ausführbaren Datei?	Java Basics - Anfänger-Themen	4	9. Mrz 2023
W	Objekte einer ArrayList in txt-datei schreiben mit Paths?	Java Basics - Anfänger-Themen	2	5. Okt 2022
M	Spezifischen Wert einer Zeile aus .txt Datei entnehmen	Java Basics - Anfänger-Themen	15	14. Sep 2022
B	Popups mit Klicksabfangen zumAusfüllen einer .ods Datei	Java Basics - Anfänger-Themen	0	4. Sep 2022
M	RandomAccessFile int und String gleichzeitig in einer Datei	Java Basics - Anfänger-Themen	49	19. Aug 2022
B	Den Dateipfad einer Java Datei durch Code in Selbiger finden?	Java Basics - Anfänger-Themen	10	27. Mai 2022
	Zeilen einer Datei einlesen	Java Basics - Anfänger-Themen	3	7. Apr 2022
	Wie gebe ich den Pfad zu einer Datei an, die in einem Ordner in Eclipse ist?	Java Basics - Anfänger-Themen	1	9. Mrz 2022
J	int innerhalb einer Datei ändern	Java Basics - Anfänger-Themen	1	23. Jan 2022
A	Verarbeiten einer Excel Datei durch das java-Programm	Java Basics - Anfänger-Themen	3	3. Nov 2021
	hallo habe ein Problem mit einer Datei -> (Zugriff verweigert)	Java Basics - Anfänger-Themen	4	4. Sep 2021
J	Wert in einer json Datei ändern und speichern	Java Basics - Anfänger-Themen	3	23. Apr 2021
	Methode, die einen arry von objekten speichert in einer datei	Java Basics - Anfänger-Themen	6	19. Jan 2021
H	Daten aus einer Datei in eine Liste speichern	Java Basics - Anfänger-Themen	23	21. Dez 2020
A	Fehler beim Ausführen einer class Datei	Java Basics - Anfänger-Themen	6	5. Sep 2020
O	zufälliges Wort aus einer Datei einlesen	Java Basics - Anfänger-Themen	32	8. Jun 2020
J	Ein Wort aus einer Datei zufällig ermitteln	Java Basics - Anfänger-Themen	3	1. Feb 2020
S	Verbindung von einer Excel Datei zu Java--	Java Basics - Anfänger-Themen	4	25. Jan 2020
G	Problem beim Speichern von Objekten in einer Datei	Java Basics - Anfänger-Themen	7	4. Jan 2020
I	ArrayList - Methode zum Speichern eines Eintrags in einer Datei	Java Basics - Anfänger-Themen	17	29. Dez 2019
S	Aus einer .bz2 Datei auslesen	Java Basics - Anfänger-Themen	2	18. Okt 2019
I	Nur auf Abfrage von einer Text Datei einlesen	Java Basics - Anfänger-Themen	11	4. Jun 2019
E	Einteilung der Räume mit einlesen einer .txt datei	Java Basics - Anfänger-Themen	16	8. Mai 2019
B	Erstellung einer XML Datei	Java Basics - Anfänger-Themen	8	21. Jan 2019
D	Erste Schritte Projekt in Ecplise in einer .zip Datei speichern	Java Basics - Anfänger-Themen	8	28. Jul 2018
S	Probleme mit abspielen einer .wav Datei	Java Basics - Anfänger-Themen	2	21. Jun 2018
S	Wort suchen und ersetzen in einer Datei	Java Basics - Anfänger-Themen	6	14. Jun 2018
A	Sortieren ausgerechneter Werte aus einer TXT Datei	Java Basics - Anfänger-Themen	8	24. Mrz 2018
	Alle Zeilen einer CSV-Datei auslesen	Java Basics - Anfänger-Themen	1	25. Dez 2017
C	Zeilen aus einer Datei in Array speichern	Java Basics - Anfänger-Themen	4	11. Dez 2017
F	Mehrere Zeilen zu einer Zeile zusammenfügen und in eine Datei schreiben	Java Basics - Anfänger-Themen	1	17. Okt 2017
	Input/Output Einlesen und bearbeiten einer text Datei / Zeile	Java Basics - Anfänger-Themen	5	16. Okt 2017
E	Fehler beim Debuggen einer jsp-Datei	Java Basics - Anfänger-Themen	3	5. Jul 2017
S	Text aus einer HTML Datei auslesen	Java Basics - Anfänger-Themen	1	16. Mai 2017
J	Erstellen einer Datei ohne path	Java Basics - Anfänger-Themen	1	17. Mrz 2017
V	Klassen Fehler beim compilieren einer Datei in CamelCase	Java Basics - Anfänger-Themen	2	30. Dez 2016
M	In einer Datei schreiben - Java	Java Basics - Anfänger-Themen	3	26. Nov 2016
M	Eigenschaften einer Datei auslesen	Java Basics - Anfänger-Themen	5	20. Okt 2016
	Werte einer .txt Datei sortieren	Java Basics - Anfänger-Themen	8	19. Apr 2016
N	gerichteter Graph aus einer Datei einlesen	Java Basics - Anfänger-Themen	21	12. Feb 2016
J	Encoding Problem beim Einlesen einer txt Datei mit Umlauten	Java Basics - Anfänger-Themen	3	9. Okt 2015
J	Java - Abspielen einer wav Datei	Java Basics - Anfänger-Themen	2	24. Jul 2015
F	Zeichen einer Datei zaehlen	Java Basics - Anfänger-Themen	1	2. Jul 2015
I	Klassen Mehrere Java Klassen in einer .java Datei	Java Basics - Anfänger-Themen	7	18. Mai 2015
M	Pfad zu einer Datei in einer exportierten Jar-Datei	Java Basics - Anfänger-Themen	5	6. Feb 2015
Z	Greenfoot Variable in einer Datei und nicht in einem Objekt/World speichern	Java Basics - Anfänger-Themen	1	11. Jan 2015
S	Eine Spalte einer CSV Datei ausgeben	Java Basics - Anfänger-Themen	2	3. Jan 2015
J	Zeilen aus einer .txt-Datei auslesen und Variablen zuweisen	Java Basics - Anfänger-Themen	11	20. Dez 2014
J	Eingabeaufforderung stürzt ab (beim Ausführen einer Java-Datei)	Java Basics - Anfänger-Themen	3	7. Dez 2014
K	Inhalt von einer csv-Datei abspeichern	Java Basics - Anfänger-Themen	3	10. Jul 2014
M	Kopieren einer .wav Datei	Java Basics - Anfänger-Themen	6	3. Mai 2014
A	Hashwert einer Datei berechnen	Java Basics - Anfänger-Themen	3	19. Mrz 2014
J	Daten von einer PHP Datei ablesen	Java Basics - Anfänger-Themen	1	20. Feb 2014
I	Authentifizierung einer iCal- Datei auf einer Webseite	Java Basics - Anfänger-Themen	1	5. Feb 2014
	Input/Output Android : Deserialisieren von mehreren Objekten in einer Datei	Java Basics - Anfänger-Themen	0	9. Jan 2014
C	auslesen bestimmter werte einer textdatei und anschl. hineinschreiben in eine neue txt-datei.	Java Basics - Anfänger-Themen	2	12. Dez 2013
N	Bestimmte Zeile aus einer Datei auslesen	Java Basics - Anfänger-Themen	10	2. Dez 2013
O	Auflösung einer Bild-Datei bekommen ohne sie herunterzuladen??	Java Basics - Anfänger-Themen	7	8. Jan 2013
S	Input/Output einlesen aus einer evtl. leeren Datei	Java Basics - Anfänger-Themen	5	29. Dez 2012
S	Erste Schritte Ausführen einer Class Datei	Java Basics - Anfänger-Themen	6	13. Nov 2012
L	Split + Zeilen einer Datei mit bestimmtem Inhalt löschen	Java Basics - Anfänger-Themen	23	4. Nov 2012
T	NullPointerException bei Verwendung einer Klasse einer anderen .jar datei	Java Basics - Anfänger-Themen	3	9. Jul 2012
D	Input/Output Mehrere Objecte in einer Datei	Java Basics - Anfänger-Themen	5	13. Mrz 2012
M	Größe einer Datei via. Link ermitteln	Java Basics - Anfänger-Themen	9	25. Jan 2012
E	Anmeldung an Webseite und Abruf einer Datei	Java Basics - Anfänger-Themen	3	6. Jan 2012
P	Interpreter-Fehler Probleme beim Ausführen einer Jar Datei	Java Basics - Anfänger-Themen	2	28. Nov 2011
A	Werte per Zufall aus einer Datei ziehen und in eine neue Datei schreiben	Java Basics - Anfänger-Themen	9	21. Nov 2011
U	Öffnen einer war-Datei	Java Basics - Anfänger-Themen	3	2. Nov 2011
J	Öffnen einer jar-Datei	Java Basics - Anfänger-Themen	22	25. Okt 2011
S	JTabbedPane jeder Tab in einer eigenen java Datei?	Java Basics - Anfänger-Themen	3	14. Sep 2011
S	Arbeiten mit einer CSV Datei und Überprüfen von einem Datum in einem Textfeldern	Java Basics - Anfänger-Themen	4	29. Aug 2011
A	Problem beim Ausführen einer .jar datei auf externen System	Java Basics - Anfänger-Themen	5	9. Jul 2011
K	Starten einer ausführbaren JAR Datei	Java Basics - Anfänger-Themen	8	8. Jun 2011
F	META-INF/persistence.xml in einer war-Datei	Java Basics - Anfänger-Themen	6	6. Jun 2011
R	Kopieren einer Datei	Java Basics - Anfänger-Themen	18	26. Mai 2011
M	Speichern in einer .txt Datei	Java Basics - Anfänger-Themen	3	26. Mai 2011
K	Dekomprimieren einer Datei.txt	Java Basics - Anfänger-Themen	22	15. Mai 2011
L	Problem beim Einlesen einer Datei in einen String	Java Basics - Anfänger-Themen	12	13. Mai 2011
A	Umwandlung einer Datei ins int	Java Basics - Anfänger-Themen	26	12. Mai 2011
D	Amplitude einer 8-Bit *.wav Datei	Java Basics - Anfänger-Themen	2	9. Mai 2011
H	Pseudo-Stack (char[] stackArray) mit Zeichen aus einer .txt-Datei befüllen	Java Basics - Anfänger-Themen	5	28. Apr 2011
G	Input/Output Zeilenanzahl einer .txt Datei ausgeben	Java Basics - Anfänger-Themen	2	30. Mrz 2011

aus einer Datei lesen?

Haubitze_Broese

Mitglied

faetzminator

Gesperrter Benutzer

Gast2

Gast

Haubitze_Broese

Mitglied

stareagle

Mitglied

Haubitze_Broese

Mitglied

Haubitze_Broese

Mitglied

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen