Hi Leute,
Habe die Untertitel eines (italiensischen) Youtube-Videos heruntergeladen (Anhang 1 (ursprüngliche_Datei.txt)) und möchte sie mit einem Textübersetzungsprogramm übersetzten. Leider sind in der heruntergeladenen Datei noch zusätliche Informationen vorhanden.
Die .txt - Datei habe ich zeilenweise ausgelesen und die Zahlen und Uhrzeiten habe ich schon "rausgefiltert".
Im verbliebenen Text befinden sich immer noch zusätliche Informationen (immer zwischen '<' und '>') welche ich rauslöschen möchte (Anhang 2 (zum_Teil_gefilterte_Datei.txt)).
Soll heißen wenn ich z.B. folgenden Satz habe:
"Hallo <schönes Wetter> Welt, die Welt <Regen> ist schön" ,
dann soll alles zwischen '<' und '>' inklusiver dieser Zeichen gelöscht werden, damit in diesem Fall am Ende nur mehr "Hallo Welt, die Welt ist schön" steht.
Zwischen den beiden Zeichen ('<' und '>') steht nicht immer das gleiche und wenn in einer Zeile diese öfters vorkommen sollen alle gelöscht werden.
Bin für jede Hilfe dankbar und hoffe, dass das nicht zu kompliziert erklärt war
Und bitte steingt mich nicht, falls ich das Thema an der falschen Stelle erstellt habe - bin neu hier
Habe die Untertitel eines (italiensischen) Youtube-Videos heruntergeladen (Anhang 1 (ursprüngliche_Datei.txt)) und möchte sie mit einem Textübersetzungsprogramm übersetzten. Leider sind in der heruntergeladenen Datei noch zusätliche Informationen vorhanden.
Die .txt - Datei habe ich zeilenweise ausgelesen und die Zahlen und Uhrzeiten habe ich schon "rausgefiltert".
Java:
package com.company;
import java.io.*;
import java.util.ArrayList;
import java.lang.*;
public class Main {
public static void main(String[] args) throws IOException {
BufferedReader reader = new BufferedReader(new FileReader("C:\\Users\\Gerri\\Desktop\\italienisch.txt"));
BufferedWriter writer = new BufferedWriter(new FileWriter("C:\\Users\\Gerri\\Desktop\\gefilterte_Datei.txt"));
String line = null;
int a = 0;
ArrayList<String> lines = new ArrayList<>();
while ((line = reader.readLine()) != null) {
lines.add(line);
}
lines.add("over");
reader.close();
for (int i = 0; i < lines.size(); i++) {
lines.remove(a);
lines.remove(a);
lines.remove(a += 1);
}
for (int j = 0; j < lines.size(); j++) {
writer.write(lines.get(j));
writer.newLine();
writer.newLine();
}
writer.close();
}
}
Im verbliebenen Text befinden sich immer noch zusätliche Informationen (immer zwischen '<' und '>') welche ich rauslöschen möchte (Anhang 2 (zum_Teil_gefilterte_Datei.txt)).
Soll heißen wenn ich z.B. folgenden Satz habe:
"Hallo <schönes Wetter> Welt, die Welt <Regen> ist schön" ,
dann soll alles zwischen '<' und '>' inklusiver dieser Zeichen gelöscht werden, damit in diesem Fall am Ende nur mehr "Hallo Welt, die Welt ist schön" steht.
Zwischen den beiden Zeichen ('<' und '>') steht nicht immer das gleiche und wenn in einer Zeile diese öfters vorkommen sollen alle gelöscht werden.
Bin für jede Hilfe dankbar und hoffe, dass das nicht zu kompliziert erklärt war
Und bitte steingt mich nicht, falls ich das Thema an der falschen Stelle erstellt habe - bin neu hier