Scanner für große Textdatei

techdevil · 9. Nov 2012

Hi,

hier ein simpler Code zum zählen der Zeilen in einer Textdatei.

Java:

	public static int getNumLines(String inputPath) throws IOException{
		
		int res = 0;
		String test = null;
		
		Scanner input = new Scanner(new File(inputPath));
		
		while(input.hasNextLine()){ //input.hasNext() liefert das gleiche Problem
			
			input.nextLine();

			res++;
		} 
		
		input.close();
		return res;		
	}

Funktioniert gut bei bei vielen, auch beliebig großen Files - aber u.a. nicht bei folgender Wortliste.
105MB große Wortliste. Pass: 4gulli Die Liste hat pro Zeile ein Wort.

Die While-Schleife stoppt zu früh. Die letzten gelesenen Zeilen sind:

...
abbuiati
abbuiato
abbuiava
abbuiavano
abbuino
abb

Wobei das letzte Wort eigentlich laut normalem Texteditor "abbuio" heißen sollte. Die Methode liest aber nach dem zweiten "b" anscheinend ein Carriage Return und danach liefert hasNextLine() false. Die Ausgabe 648034 passt aber trotzdem nicht. Laut Texteditor befindet sich "abbuino" in Zeile 648104.

Hat das mit fehlerhaften Zeilenumbruch-Zeichen oder vielleicht mit der eingestellen Codierung zu tun?
Der Texteditor (Linux Gedit) lässt an der Stelle nichts vermuten.

Gruß

kaetzacoatl · 9. Nov 2012

Lass dir doch mal die Zeichen der letzten Zeilen ausgeben.
(Als bytes!)

Ark · 9. Nov 2012

Laut vim befindet sich in Zeile 648104 der Eintrag "abbyland^M" (das ^M deutet auf einen Windows-Zeilenumbruch hin, gehört also nicht wirklich zur Zeile). In Zeile 648034 steht bei mir "abbuio^M".

Ich weiß gerade nicht, ob es was mit dem Problem zu tun hat, aber anscheinend wechselt ab und zu mal die Kodierung. So steht z.B. das Wort "abbrände" doppelt drin: einmal mit ä in UTF-8-Kodierung und einmal mit ä in einer Kodierung, die ich noch nicht identifizieren konnte (im Folgenden Ausschnitt von vim als <84> wiedergegeben):

Code:

   647917 abbrv^M
   647918 abbr<84>nde^M
   647919 abbr<94>ckeln^M
   647920 abbr<94>ckelnd^M
   647921 abbr<94>ckelnde^M
   647922 abbr<94>ckelnden^M
   647923 abbr<94>ckelnder^M
   647924 abbr<94>ckelndes^M
   647925 abbrände^M
   647926 abbröckele^M
   647927 abbröckeln^M
   647928 abbröckelnd^M
   647929 abbröckelnde^M
   647930 abbröckelndem^M
   647931 abbröckelnden^M
   647932 abbröckelnder^M
   647933 abbröckelndes^M
   647934 abbröckelst^M
   647935 abbröckelt^M
   647936 abbröckelte^M
   647937 abbröckelten^M
   647938 abbröckeltest^M
   647939 abbröckeltet^M
   647940 abbröckle^M
   647941 abbrühen^M
   647942 abbs^M

Möglicherweise steht da also irgendwo eine Zeile, bei der die Zeichen so kodiert sind, dass dann (wegen der Kodierung) fälschlicherweise ein Zeilenumbruch erkannt wird, wo keiner sein sollte.

Ark

techdevil · 9. Nov 2012

Mit welchen Parametern hast du Vim gestartet?
Ohne jegliche Config-Parameter liefert Vim mir von deiner Ausgabe abweichende Zeilennummerierungen und keine "^M"

Das Wort "abbuio", wo die Java-Methode oben hakt, beinhaltet laut Vim aber kein Zeilenumbruchzeichen.
Vim zeigt das ganz normal an.

@kaetzacoatl: Kannst du mir vielleicht nen Tip geben, wie ich das am besten mache? BufferedReader und Scanner liefern ja nur Strings zurück. Und bei einem Inputstream wirds sicher schwer die passende Zeile zu finden, oder?

Ark · 9. Nov 2012

Ehrlich gesagt: Ich kenne mich da gerade auch nicht so gut aus.

Aber vielleicht helfen folgende Ausgaben:

Code:

22:42:35 ark@tiger:~$ cat .vimrc 
set number
set listchars=tab:\|\ ,trail:.,extends:>,precedes:<,nbsp:_
set list
syntax on
set shiftwidth=4
set tabstop=4
set autoindent
set nowrap
set scrolloff=8
set sidescrolloff=4
set showtabline=2
set foldcolumn=2
set showmode
set whichwrap=b,s,<,>
set wildmenu

22:42:57 ark@tiger:~$ locale
LANG=en_US.UTF-8
LANGUAGE=en_US:en
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE="en_US.UTF-8"
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_PAPER="en_US.UTF-8"
LC_NAME="en_US.UTF-8"
LC_ADDRESS="en_US.UTF-8"
LC_TELEPHONE="en_US.UTF-8"
LC_MEASUREMENT="en_US.UTF-8"
LC_IDENTIFICATION="en_US.UTF-8"
LC_ALL=
22:43:00 ark@tiger:~$

Ark

Pentalon · 9. Nov 2012

Hi Devil

An der Datei liegt das eher nicht.
Ich habe das ganze zuerst mit Deiner Datei getestet, danach habe ich aus dieser die ersten ca. 30 zeilen rausgelöscht und dann passiert der selbe Fehler etwas weiter unten.
Ich vermute, dass es hier intern zu einem Überlauf kommt.
Ich habe Dein Prorgramm etwas verändert:

Java:

import java.io.File;
import java.io.IOException;
import java.util.Scanner;

public class Test5 {

    public static int getNumLines(String inputPath) throws IOException{
        
        int res = 0;
        int bytes = 0;
        String test = null;
        
        Scanner input = new Scanner(new File(inputPath));
        
        while(input.hasNextLine()){ //input.hasNext() liefert das gleiche Problem
            
            test = input.next();
            bytes = bytes + test.length()+2;			 // Bytes aufaddieren inkl. CRNL
            System.out.println("Gelesener String->"+test+" Länge->"+test.length()+" Gesamt gelesen->"+bytes);
 
            res++;
        } 
        
        input.close();
		System.out.println("Anzahl der Bytes= "+bytes);
        return res;     
    }
    
    public static void main(String[] args) throws IOException {
		System.out.println("Anzahl der Zeilen= "+Test5.getNumLines("c:\\temp\\wordlist-final1.txt"));	
	}
}

Anstelle von nextLine habe ich dann einmal next() verwendet. Damit kommt man auch nicht weiter, jedoch erscheint dann bei mir eine Fehlermeldung:

[WR]Gelesener String->abburattate Länge->11 Gesamt gelesen->6520684
Gelesener String->abburattati Länge->11 Gesamt gelesen->6520697
Gelesener String->abburattato Länge->11 Gesamt gelesen->6520710
Gelesener String->abburattatore Länge->13 Gesamt gelesen->6520725
Exception in thread "main" java.util.NoSuchElementException
at java.util.Scanner.throwFor(Unknown Source)
at java.util.Scanner.next(Unknown Source)
at rumprobieren.Test5.getNumLines(Test5.java:19)
at rumprobieren.Test5.main(Test5.java:32)[/WR]

Wie gesagt, an der Datei liegt das aus meiner Sicht eher nicht, sonst würde der Fehler weiterhin an der Stelle auftreten, auch wenn ich die Datei etwas kürze. Ausserdem sagt diese Exception, dass der Scanner nicht mehr weiss, wo er zu lesen hat. Ich hab aber leider auch keine Erfahrung mit so riesigen Dateien.

PS: Sieht ja wie eine Wortliste für eine Brute Force Attacke aus

Pentalon

Pentalon · 9. Nov 2012

Hi Devil

Hier eine Variante die Dein Textfile bis zum Ende lesen kann:

Java:

	public static int getNumLines1(String inputPath) {
        int res = 0;
        int bytes = 0;
		String test;
        
		try {
			BufferedReader in = new BufferedReader(new FileReader(inputPath));

			while ((test = in.readLine()) != null) {
				
	            //bytes = bytes + test.length()+2;			 // Bytes aufaddieren inkl. CRNL
	            //System.out.println("Gelesener String->"+test+" Länge->"+test.length()+" Gesamt gelesen->"+bytes);
				res++;
			}
		} catch (IOException e) {
			e.printStackTrace();
		}
		
		return res;
	}

Ich habe den Ausdruck und das Addieren der Bytes auskommentiert, weil die Ausgabe das Programm sehr langsam macht und das Zählen schnell überläuft.
Ohne die Ausdrucke ist die Datei schnell bis zur letzen Zeile gelesen (dauer ca 2 Sekunden bei mir).

[TIPP]Anzahl der Zeilen= 9586053 <--- Das ist die letzte Zeile !!! [/TIPP]

Ich hoffe das hilft Dir.

Pentalon

techdevil · 9. Nov 2012

OK also an der größe der Datei allein kanns nicht liegen, habe gerade eine 1gb große 10^8 zeilige Textdatei erfolgreich und korrekt gescannt.

BufferedReader kommt erheblich weiter. Weiß der Geier warum. Aber ob das wirklich die korrekte Anzahl Zeilen ist?

Vim sagt was anderes: 9588099

Das sind immerhin 2046 Zeilen mehr.

Pentalon · 9. Nov 2012

Das ist die Korrekte Anzahl.
Ich habe die Datei mit Notepad++ angesehen und die letzte Zeilennummer stimmt mit dem Zähler des Programmes überein.

Pentalon

Pentalon · 9. Nov 2012

Ich hab mir jetzt mal eben VIM installiert.
Er zeigt die selbe Zeilenanzahl wie es auch Notepad++ und das Programm anzeigen (9586053).

Pentalon

techdevil · 9. Nov 2012

Danke für die Mühe! Dann wird das wohl korrekt sein.

Mein Vim unter Linux liegt falsch:

Ark · 9. Nov 2012

Mein vim spuckt die gleiche Zahl aus wie Notepad++ (laut Pentalon):

Code:

  9586043 ÿùóðêà^M
  9586044 ÿùóðíûé^M
  9586045 ÿùóðîì^M
  9586046 ÿùóðó^M
  9586047 ÿÿ^M
  9586048 ÿÿ3ÿ^M
  9586049 ÿÿ3ÿÿfÿÿ^M
  9586050 ÿÿìÿ^M
  9586051 ÿÿìÿÿÿ^M
  9586052 ÿÿÿ^M
  9586053 ÿÿÿÿÿ^M

Ark

	Titel	Forum	Antworten	Datum
V	Ersätze für Java-Scanner	Java Basics - Anfänger-Themen	9	7. Mai 2020
D	nextInt() nicht für Scanner definiert?	Java Basics - Anfänger-Themen	2	2. Mai 2017
T	Scanner für char-wert/ if mit 2 bedingungen?	Java Basics - Anfänger-Themen	5	12. Nov 2010
	Anzahl Random Zahlen mit Scanner abfragen und in Array speichern	Java Basics - Anfänger-Themen	10	1. Dez 2023
M	Scanner Input mit if überprüfen	Java Basics - Anfänger-Themen	5	26. Nov 2023
D	Scanner	Java Basics - Anfänger-Themen	2	19. Nov 2023
T	scanner nicht erkannt	Java Basics - Anfänger-Themen	3	3. Feb 2023
T	scanner eingaben erkennen und umtauschen	Java Basics - Anfänger-Themen	4	25. Jan 2023
	Int Scanner auf Enter Eingabe prüfen	Java Basics - Anfänger-Themen	4	20. Jan 2023
H	Scanner nextLine() bringt Dateipfad	Java Basics - Anfänger-Themen	1	13. Jan 2023
	Scanner error bei Eingabe die kein Integer ist	Java Basics - Anfänger-Themen	4	4. Dez 2022
	Programm mit Scanner und If-Statements	Java Basics - Anfänger-Themen	2	28. Nov 2022
I	Scanner Loop	Java Basics - Anfänger-Themen	1	14. Nov 2022
J	Scanner cannot be resolved to a type	Java Basics - Anfänger-Themen	3	28. Sep 2022
C	Scanner und If-Anweisung in Kombi	Java Basics - Anfänger-Themen	3	1. Jul 2022
X	Erste Schritte Scanner eingabe wird übersprungen	Java Basics - Anfänger-Themen	4	24. Mai 2022
T	j.u.Scanner(Sys.in).nextLine() wieder schließen?	Java Basics - Anfänger-Themen	5	18. Apr 2022
J	Erste Schritte Scanner	Java Basics - Anfänger-Themen	4	5. Apr 2022
P	Mit dem Scanner Klassen aufrufen	Java Basics - Anfänger-Themen	3	21. Jan 2022
	Endlosschleife bei User Input mit try Scanner	Java Basics - Anfänger-Themen	7	22. Nov 2021
C	Problem mit mehreren Methoden + Scanner	Java Basics - Anfänger-Themen	5	5. Nov 2021
	Arrayliste Mittels Scanner erweitern	Java Basics - Anfänger-Themen	6	15. Jul 2021
	Timer/Scanner	Java Basics - Anfänger-Themen	5	24. Apr 2021
M	Scanner Klasse	Java Basics - Anfänger-Themen	4	26. Mrz 2021
W	Objekte über Scanner Input; ToString Probleme...	Java Basics - Anfänger-Themen	4	4. Feb 2021
F	Erste Schritte java.util.Scanner: Beliebig langen Text per Paste in Console eingeben ?	Java Basics - Anfänger-Themen	14	25. Jan 2021
H	Quellcode Scanner Klasse	Java Basics - Anfänger-Themen	2	23. Jan 2021
N	java.util.InputMismatchException Fehler Java Scanner	Java Basics - Anfänger-Themen	5	18. Dez 2020
S	Scanner soll Groß-/ Kleinschreibung ignorieren	Java Basics - Anfänger-Themen	2	25. Nov 2020
Y	Wie kann ich Konsoleneingaben durch den Scanner mit JUnit 4 testen?	Java Basics - Anfänger-Themen	1	15. Nov 2020
J	Scanner-Klasse	Java Basics - Anfänger-Themen	2	28. Okt 2020
B	Scanner-If/else kleine Abhebungs-Simulation	Java Basics - Anfänger-Themen	3	17. Sep 2020
A	Scanner Befehl Java Anfänger	Java Basics - Anfänger-Themen	8	28. Jul 2020
D	Scanner- Exception NoSuchElementException	Java Basics - Anfänger-Themen	2	27. Jun 2020
G	Scanner nutzen und Index auslesen	Java Basics - Anfänger-Themen	8	2. Jun 2020
N	Problem mit Scanner	Java Basics - Anfänger-Themen	2	18. Mai 2020
P	Methode die eigentlich einen Scanner benötigt mit toString()	Java Basics - Anfänger-Themen	5	12. Apr 2020
A	Scanner-Error	Java Basics - Anfänger-Themen	8	25. Mrz 2020
D	Java Scanner	Java Basics - Anfänger-Themen	9	7. Mrz 2020
M	String in Scanner einlesen	Java Basics - Anfänger-Themen	6	29. Dez 2019
N	Eingabe Kommazahlen über Scanner	Java Basics - Anfänger-Themen	2	2. Dez 2019
	Verstehe verschieden Scanner und hasNext() nicht ganz	Java Basics - Anfänger-Themen	2	23. Nov 2019
O	Mehrfache Scanner-Eingabe durch Komma getrennt	Java Basics - Anfänger-Themen	6	23. Okt 2019
I	Scanner auf 10 Stellen begrenzt?	Java Basics - Anfänger-Themen	5	22. Sep 2019
B	Barcode Scanner	Java Basics - Anfänger-Themen	3	5. Sep 2019
V	Wie lasse ich die for-Schleife so oft laufen wie per Scanner angegeben?	Java Basics - Anfänger-Themen	3	21. Jul 2019
L	Scanner schließen in While-Schleife?	Java Basics - Anfänger-Themen	2	5. Jun 2019
S	Scanner	Java Basics - Anfänger-Themen	36	16. Apr 2019
S	Frage zu Scanner	Java Basics - Anfänger-Themen	3	8. Apr 2019
	Scanner problem mit Passwort Login	Java Basics - Anfänger-Themen	3	24. Feb 2019
O	Scanner Klasse	Java Basics - Anfänger-Themen	8	24. Jan 2019
M	java.util.scanner Fehler	Java Basics - Anfänger-Themen	5	29. Dez 2018
B	mehrere Werte mit scanner und while schleife einlesen, max berechnen bzw addieren	Java Basics - Anfänger-Themen	2	9. Nov 2018
W	Eclipse Che Scanner	Java Basics - Anfänger-Themen	8	8. Nov 2018
H	Vererbung Static Scanner Objekt verwenden - von StdIn in einer importierten Klasse lesen	Java Basics - Anfänger-Themen	10	20. Sep 2018
X	Erste Schritte Problem mit scanner	Java Basics - Anfänger-Themen	2	8. Jul 2018
A	Scanner.useLocale(Locale.US);	Java Basics - Anfänger-Themen	4	11. Jun 2018
M	Datei einlesen mit Scanner funktioniert nicht (FileNotFoundException)	Java Basics - Anfänger-Themen	6	31. Mai 2018
I	Scanner und Arrays	Java Basics - Anfänger-Themen	2	12. Mai 2018
M	Scanner-Eingabe nach gewissem Zeitraum überprüfen	Java Basics - Anfänger-Themen	2	30. Apr 2018
	Methoden Scanner Methode	Java Basics - Anfänger-Themen	9	24. Apr 2018
E	Probleme mit Scanner	Java Basics - Anfänger-Themen	4	28. Mrz 2018
A	Java Scanner Funktioniert nicht	Java Basics - Anfänger-Themen	2	8. Jan 2018
B	Vom scanner in ein Arraylist	Java Basics - Anfänger-Themen	7	5. Jan 2018
L	Scanner Ausgabe	Java Basics - Anfänger-Themen	37	20. Dez 2017
S	Zeilenumbruch mit Scanner erkennen	Java Basics - Anfänger-Themen	9	16. Nov 2017
O	Erste Schritte Scanner mehrere male benutzen (Konsole)	Java Basics - Anfänger-Themen	7	16. Nov 2017
W	Wie arbeite ich mit dem Typ Scanner?	Java Basics - Anfänger-Themen	5	27. Okt 2017
J	Input/Output Scanner Input als etwas einsetzen	Java Basics - Anfänger-Themen	3	19. Okt 2017
R	CMDTools Scanner Fehler	Java Basics - Anfänger-Themen	10	16. Jul 2017
N	Operatoren Suchen nach einer bestimmten Eingabe (durch Scanner)	Java Basics - Anfänger-Themen	7	26. Mrz 2017
F	Scanner Problem	Java Basics - Anfänger-Themen	8	22. Jan 2017
T	Variablen Array mit Scanner befüllen	Java Basics - Anfänger-Themen	6	13. Jan 2017
C	Java Scanner einlesen von txt Dokument InputMismatch	Java Basics - Anfänger-Themen	9	29. Dez 2016
	Scanner schließen, erneute Verwendung	Java Basics - Anfänger-Themen	12	20. Dez 2016
F	Scanner - nextLine() gibt leeren String zurück	Java Basics - Anfänger-Themen	2	10. Okt 2016
T	Problem mit Scanner.	Java Basics - Anfänger-Themen	4	7. Okt 2016
J	Methode über Scanner aufrufen	Java Basics - Anfänger-Themen	15	10. Sep 2016
J	Erste Schritte Scanner negative zahl einlesen und verwenden.	Java Basics - Anfänger-Themen	6	22. Jun 2016
W	Methoden Probleme mit der Scanner Methode	Java Basics - Anfänger-Themen	2	18. Apr 2016
	Scanner Problem	Java Basics - Anfänger-Themen	5	29. Feb 2016
W	Erste Schritte import java.util.scanner funktioniert nicht	Java Basics - Anfänger-Themen	2	8. Jan 2016
	Error bei Scanner - woher?	Java Basics - Anfänger-Themen	14	4. Jan 2016
D	Fehler bei String eingabe via Scanner	Java Basics - Anfänger-Themen	6	5. Nov 2015
F	Problem do while Schleife und Scanner	Java Basics - Anfänger-Themen	2	2. Nov 2015
O	POI Apache sheet scanner	Java Basics - Anfänger-Themen	1	21. Aug 2015
A	regulären Ausdruck mit Hilfe der Klasse Scanner in einem String finden	Java Basics - Anfänger-Themen	2	30. Jun 2015
F	Array mit Scanner-Werten	Java Basics - Anfänger-Themen	4	25. Jun 2015
M	Input/Output Scanner schließt nicht	Java Basics - Anfänger-Themen	2	29. Mai 2015
M	Scanner class	Java Basics - Anfänger-Themen	6	15. Mai 2015
K	Mit Scanner aus einer txt Datei lesen und jede Person mit name, vorname, geburtsdatum speichern	Java Basics - Anfänger-Themen	5	15. Mai 2015
S	Array mit "foreach"-Schleife und nextInt (aus Scanner) beschreiben	Java Basics - Anfänger-Themen	6	9. Mai 2015
G	Strings mit Scanner (nextLine) einlesen	Java Basics - Anfänger-Themen	7	5. Mai 2015
Q	Scanner auf eine Zahl beschränken	Java Basics - Anfänger-Themen	2	17. Apr 2015
S	Sonderzeichen '\|' (u007C) mit Scanner einlesen	Java Basics - Anfänger-Themen	1	8. Apr 2015
T	Scanner lässt sich nicht importieren	Java Basics - Anfänger-Themen	1	31. Mrz 2015
R	scanner in String funktioniert nicht	Java Basics - Anfänger-Themen	1	27. Mrz 2015
P	scanner ein Double einlesen	Java Basics - Anfänger-Themen	10	9. Mrz 2015
A	InputMismatchException mit Scanner	Java Basics - Anfänger-Themen	6	2. Mrz 2015
J	scanner, String einlesen und vergleichen	Java Basics - Anfänger-Themen	3	13. Feb 2015

Scanner für große Textdatei

techdevil

Aktives Mitglied

kaetzacoatl

Bekanntes Mitglied

Ark

Top Contributor

techdevil

Aktives Mitglied

Ark

Top Contributor

Pentalon

Bekanntes Mitglied

Pentalon

Bekanntes Mitglied

techdevil

Aktives Mitglied

Pentalon

Bekanntes Mitglied

Pentalon

Bekanntes Mitglied

Anhänge

techdevil

Aktives Mitglied

Anhänge

Ark

Top Contributor

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen