Q - Learning Algorithmus Bug

Feeder · 6. Jan 2019

Hey,

nachdem ich versucht habe der Stackoverflowcommunity eine bessere Antwort herauszulocken, versuche ich es mal hier.
Ich versuche eine AI zu entwickeln, die zum späteren Teil einmal Astroids spielt. Nun soll aber das Q - Learning zu nächst allgemein funktionieren.
Die Brain Klasse sieht wie folgt aus:

Java:

package rlgame;

import java.util.ArrayList;
import java.util.Collections;
import java.util.List;

import org.encog.engine.network.activation.ActivationLOG;
import org.encog.engine.network.activation.ActivationLinear;
import org.encog.engine.network.activation.ActivationSigmoid;
import org.encog.engine.network.activation.ActivationSoftMax;
import org.encog.ml.data.MLData;
import org.encog.ml.data.MLDataSet;
import org.encog.ml.data.basic.BasicMLData;
import org.encog.ml.data.basic.BasicMLDataSet;
import org.encog.neural.networks.BasicNetwork;
import org.encog.neural.networks.layers.BasicLayer;
import org.encog.neural.networks.training.propagation.back.Backpropagation;

public class Brain {
    private ArrayList<ArrayList<Tuple>> biglist = new ArrayList<ArrayList<Tuple>>();
    BasicNetwork nn;
    BasicNetwork oldnn;
    private int index = 0;
    MLDataSet set = new BasicMLDataSet();

    public Brain() {
        nn = new BasicNetwork();
        nn.addLayer(new BasicLayer(new ActivationLinear(),true,29));
        nn.addLayer(new BasicLayer(new ActivationSigmoid(),true,20));
        nn.addLayer(new BasicLayer(new ActivationSigmoid(),true,20));
        nn.addLayer(new BasicLayer(new ActivationLinear(),false,5));
        nn.getStructure().finalizeStructure();
        nn.reset();
        oldnn = (BasicNetwork) nn.clone();
      
    }
  

    public void rlearn(ArrayList<Tuple> tupels, double learningrate, double discountfactor, boolean rememberTuples) {
        if(rememberTuples)biglist.add(tupels);
      
        //newQ = sum of all rewards you have got through
        for(int i = tupels.size()-1; i > 0; i--) {
            MLData in = new BasicMLData(29);
            MLData out = new BasicMLData(5);
          
            //Add State as in
            int index = 0;
            for(double w : tupels.get(i).statefirst.elements) {
                in.add(index++, w);
            }
          
            //Now start updating Q - Values
            double qnew = 0;
            if(i <= tupels.size()-2){
                qnew = tupels.get(i).rewardafter + discountfactor*qMax(tupels.get(i).stateafter);
            } else {
                qnew = tupels.get(i).rewardafter;
            }
          
            tupels.get(i).qactions.elements[tupels.get(i).actionTaken] = qnew;
            //Add Q Values as out
            index = 0;
            for(double w : tupels.get(i).qactions.elements) {
                out.add(index++, w);
            }
           
          
            set.add(in, out);          
        }
      
      
    }
      
    private double qMax(VectorND stateafter) {
        double[] qactions = oldnn.compute(new BasicMLData(stateafter.elements)).getData();
        double max = Double.MIN_VALUE;
        for(double w : qactions) {
            if(w > max) {
                max = w;
            }
        }
        return max;
    }


    public double[] getOutput(MLData input) {
        return nn.compute(input).getData();
    }
  
    public void experienceReplay(double learningRate, double discountFactor) {
  
        for(int i = 0; i < 10; i++) {
            Collections.shuffle(biglist);
            List<ArrayList<Tuple>> list = biglist.subList(0, (int)(biglist.size()*0.3));
            for(ArrayList<Tuple> tuples : list) {
                rlearn(tuples,learningRate, discountFactor, false);
            }
            Backpropagation prop = new Backpropagation(nn, set);
            prop.setLearningRate(learningRate);
            prop.iteration(10);
            System.out.println(prop.getError());
        }
      
        oldnn = (BasicNetwork) nn.clone();
        if(biglist.size() > 10000) {
            System.out.println("List trimmed.");
            while(biglist.size() > 10000) {
                biglist.remove(biglist.size()-1);
            }
        }
        set = new BasicMLDataSet();

    }
    public void addTuples(ArrayList<Tuple> tuples) {
        biglist.add(tuples);
    }


}

Die rLearn Methode evaluiert den Fehler bzw. den neuen Q - value, während die experienceReplay Methode versucht dem Netz etwas beizubringen. Unglücklicherweise ist in dieser Klasse ein ziemlich idiotischer Bug, ich weiß nur nicht wo... Ich benutze ein älteres Netz um den maximalen Q - Value des jeweils nächsten States zu berechnen, das soll Stabilität gewährleisten.

Das Tuplecode findet sich hier:

Code:

package rlgame;

import java.util.ArrayList;

public class Tuple {
    VectorND statefirst = new VectorND();
    VectorND stateafter = new VectorND();
    VectorND qactions = new VectorND();
    double rewardafter;
    int actionTaken;

}

package rlgame;
import java.util.ArrayList;
public class Tuple {
VectorND statefirst = new VectorND();
VectorND stateafter = new VectorND();
VectorND qactions = new VectorND();
double rewardafter;
int actionTaken;
}

Den gesamten Code findet ihr hier:

https://github.com/SuchtyTV/RLearningBird

mihe7 · 6. Jan 2019

Feeder hat gesagt.:
nachdem ich versucht habe der Stackoverflowcommunity eine bessere Antwort herauszulocken, versuche ich es mal hier.

Wenn Du da auch keine Frage gestellt hast...

Feeder · 6. Jan 2019

Was läuft so falsch?

httpdigest · 6. Jan 2019

Ja, was läuft denn falsch? Aktuell hast du nur Code gepostet, gesagt, `Die rLearn Methode evaluiert den Fehler bzw. den neuen Q - value, während die experienceReplay Methode versucht dem Netz etwas beizubringen.`, wozu man nur sagen kann "aha" und dann erwähnst du, dass irgendwo in dem Code ein Fehler ist, ohne darauf hinzuweisen, wo denn die Diskrepanz zwischen dem, was der Code tut und dem, was du erwartest, liegt.
Dann wäre meine erste Frage also erstmal: Woher weißt du denn, dass in dem Code ein Fehler ist? Worin äußert sich das?

Feeder · 6. Jan 2019

Der Punkt geht an dich.
Naja zum einen sind die Fehler nach der Backpropagation viel zu groß.
Ich habe nun die Sigmoidfunktionen mit Logarithmen ausgetauscht.
Nachdem sind die Fehler im Bereich 0 bis 20; besser...
Die Q-Funktion wird dennoch nicht korrekt approximiert. (vielleicht ein Overfit, was ich aber nicht annehme)
Außerdem erhalte ich immer ein OutOfMemoryError (den ich zwar fixen kann, dennoch trotzdem nicht sicher bin wo der her rührt.)

	Titel	Forum	Antworten	Datum
F	KI / Machine Learning Parameter verschachtelte for Schleifen	Allgemeine Java-Themen	2	19. Jan 2023
F	KI / Machine Learning Parameter verschachtelte for Schleifen	Allgemeine Java-Themen	1	19. Jan 2023
	Text mining / deep learning	Allgemeine Java-Themen	0	3. Jul 2018
F	Machine-learning Framework	Allgemeine Java-Themen	0	25. Jan 2018
T	Datenbank oder Filesystem? (E-Learning)	Allgemeine Java-Themen	2	4. Sep 2013
	Quicksort-Algorithmus Optimierung	Allgemeine Java-Themen	1	9. Feb 2025
B	Algorithmus für Arbeit mit fehlenden Listenelementen?	Allgemeine Java-Themen	1	5. Apr 2024
	AES-Algorithmus in javax.crypto	Allgemeine Java-Themen	3	30. Aug 2023
M	Laufzeit des Prim Algorithmus	Allgemeine Java-Themen	3	7. Jan 2023
O	Newton Algorithmus Java	Allgemeine Java-Themen	1	27. Jan 2022
	Backpropagation Algorithmus	Allgemeine Java-Themen	6	1. Aug 2021
N	Google Authenticator Algorithmus (SHA1)	Allgemeine Java-Themen	1	26. Jun 2021
	Schatzsuche mithilfe eines O(log n) Algorithmus	Allgemeine Java-Themen	2	15. Mai 2021
	Quicksort-Algorithmus - zufälliges Pivot wählen	Allgemeine Java-Themen	6	4. Nov 2020
L	Klassen Algorithmus für das folgende Problem entwickeln?	Allgemeine Java-Themen	30	12. Aug 2019
B	Algorithmus Warteschlange Ringpuffer wirklich fehlerfrei	Allgemeine Java-Themen	8	12. Apr 2019
M	Probleme mit Negamax-Algorithmus	Allgemeine Java-Themen	29	6. Apr 2019
M	Salesman Problem - Bruteforce Algorithmus	Allgemeine Java-Themen	23	15. Okt 2018
M	Minmax Algorithmus Verständnisproblem	Allgemeine Java-Themen	2	13. Okt 2018
H	Rundreise frage (Algorithmus)	Allgemeine Java-Themen	18	9. Aug 2018
F	KMP-Algorithmus	Allgemeine Java-Themen	9	1. Feb 2018
S	Algorithmus welcher True-Werte in einem Array findet und auswertet.	Allgemeine Java-Themen	5	12. Mai 2017
U	Methoden Algorithmus MergeSort String [ ] array sortieren programmieren	Allgemeine Java-Themen	17	1. Apr 2017
P	MinMax Algorithmus	Allgemeine Java-Themen	0	1. Mrz 2017
J	Abhängigkeit zwischen Rechenzeit und Speicherbedarf in einen Algorithmus	Allgemeine Java-Themen	7	1. Dez 2016
K	Djikstra-Algorithmus	Allgemeine Java-Themen	1	3. Okt 2016
T	Minimax/Alphabeta Algorithmus hängt sich auf (?)	Allgemeine Java-Themen	2	3. Sep 2016
M	Algorithmus zum Zahlen einteilen	Allgemeine Java-Themen	8	30. Aug 2016
O	Best Practice Hilfe bei Algorithmus gesucht	Allgemeine Java-Themen	10	25. Apr 2016
S	Algorithmus um Objekte auf einer Flaeche mit gleichem Abstand anzuordnen..?	Allgemeine Java-Themen	20	20. Mrz 2016
S	Rucksackproblem und genetischer Algorithmus	Allgemeine Java-Themen	9	8. Jun 2015
L	Abbruch des Algorithmus	Allgemeine Java-Themen	8	2. Jun 2015
D	Input/Output Ausgleichen chemischer Reaktionsgleichungen mit dem Gauß-Algorithmus	Allgemeine Java-Themen	2	1. Okt 2014
	A*-Algorithmus integrieren	Allgemeine Java-Themen	3	10. Jul 2014
S	Buchscan 3D Dewarp Algorithmus - Ansätze	Allgemeine Java-Themen	1	13. Jun 2014
B	Verteilungs-/Vergabe-Algorithmus mit abhängigen Score-Werten	Allgemeine Java-Themen	3	9. Mai 2014
	"Shunting Yard"-Algorithmus	Allgemeine Java-Themen	6	7. Mai 2014
B	Algorithmus - Project Euler Problem 18	Allgemeine Java-Themen	2	16. Mrz 2014
N	Algorithmus zum bewerten von mathematischen Funktionen	Allgemeine Java-Themen	11	31. Jan 2014
O	Algorithmus Optimierung	Allgemeine Java-Themen	3	20. Dez 2013
	Algorithmus - Zahlenfolge in 4 ähnliche Teile aufteilen	Allgemeine Java-Themen	0	4. Dez 2013
O	Tag Cloud Algorithmus Idee gesucht	Allgemeine Java-Themen	2	15. Okt 2013
A	Implementierung eines Algorithmus (Farthest Insertion zur Lösung des TSP) in O(n²)	Allgemeine Java-Themen	2	8. Jan 2013
C	Eclipse Probleme bei selbst erstelltem Algorithmus	Allgemeine Java-Themen	2	20. Okt 2012
H	Graph-Algorithmus gesucht	Allgemeine Java-Themen	21	17. Sep 2012
N	Algorithmus durch Workflow	Allgemeine Java-Themen	7	22. Aug 2012
M	tree-based diff Algorithmus (Code-Vergleiche)	Allgemeine Java-Themen	3	12. Aug 2012
S	Uhrzeit Algorithmus sale	Allgemeine Java-Themen	11	8. Aug 2012
N	A*-Algorithmus	Allgemeine Java-Themen	5	31. Mai 2012
A	Suche Algorithmus zum Erstellen eines planaren Graphen	Allgemeine Java-Themen	5	17. Dez 2011
F	Methoden Algorithmus zur Gegnerfindung (Turnier)	Allgemeine Java-Themen	9	25. Okt 2011
T	Algorithmus Graph	Allgemeine Java-Themen	10	12. Sep 2011
J	Algorithmus gesucht (Stringtransformation)	Allgemeine Java-Themen	4	8. Sep 2011
B	Algorithmus Krankenhausbelegung	Allgemeine Java-Themen	17	5. Aug 2011
S	Algorithmus von Dijkstra	Allgemeine Java-Themen	2	20. Jul 2011
	OOP Banknoten Algorithmus Teil 2	Allgemeine Java-Themen	13	27. Jun 2011
2	ArrayList aktualisieren Algorithmus	Allgemeine Java-Themen	11	22. Jun 2011
	Methoden Banknoten Algorithmus	Allgemeine Java-Themen	10	8. Jun 2011
R	Codehinweise: Algorithmus Größenvergleich von n Zahlen	Allgemeine Java-Themen	5	25. Mai 2011
	WTF?! Algorithmus-Geschwindigkeitstest	Allgemeine Java-Themen	2	21. Mai 2011
L	Algorithmus für kürzesten Weg mit Wegpunkten	Allgemeine Java-Themen	21	30. Apr 2011
C	Algorithmus Problem in Minesweeper	Allgemeine Java-Themen	5	27. Jan 2011
S	Algorithmus um Labyrinth zu erzeugen	Allgemeine Java-Themen	6	13. Jan 2011
V	Problem mit A* Pathfinder-Algorithmus	Allgemeine Java-Themen	2	27. Jul 2010
S	Algorithmus um nächst folgende Primzahl zu berechnen	Allgemeine Java-Themen	7	31. Mai 2010
S	Algorithmus Problem. Rechtecke effizient auf Spielfeld anordnen.	Allgemeine Java-Themen	7	6. Apr 2010
C	Algorithmus-Hilfe	Allgemeine Java-Themen	20	3. Feb 2010
J	Algorithmus Längenkombinationen?	Allgemeine Java-Themen	7	18. Jan 2010
M	Kombinationen über rekursiven Algorithmus berechnen?	Allgemeine Java-Themen	10	26. Sep 2009
L	Algorithmus für Poker-Hände	Allgemeine Java-Themen	7	13. Aug 2009
	2 return werte für Greedy-Algorithmus (gelöst)	Allgemeine Java-Themen	3	19. Mai 2009
D	Abstruse Probleme mit eigenem replace Algorithmus	Allgemeine Java-Themen	11	8. Apr 2009
P	RC4 Algorithmus	Allgemeine Java-Themen	3	22. Feb 2009
D	RSA Verfahren - Erweiterter Euklidischer Algorithmus	Allgemeine Java-Themen	4	18. Jan 2009
C	IBAN und Bic Validieren (Algorithmus)	Allgemeine Java-Themen	10	6. Jan 2009
P	Problem mit A*-Algorithmus	Allgemeine Java-Themen	12	4. Jan 2009
M	Wörter Algorithmus	Allgemeine Java-Themen	7	23. Okt 2008
M	Algorithmus für automatische Zeilenumbrüche	Allgemeine Java-Themen	12	16. Okt 2008
K	Postleitzahlen Algorithmus	Allgemeine Java-Themen	12	24. Sep 2008
G	Problem mit Algorithmus	Allgemeine Java-Themen	3	14. Aug 2008
T	Hilfe bei einem Algorithmus	Allgemeine Java-Themen	2	4. Jun 2008
S	Stemming-Algorithmus gesucht (z.B. Porter)	Allgemeine Java-Themen	2	2. Jun 2008
	präfix zu infix algorithmus	Allgemeine Java-Themen	6	18. Mai 2008
Z	A*-Algorithmus - Probleme mit offener/geschlossener Liste	Allgemeine Java-Themen	7	6. Apr 2008
S	Javaimplementierung des MD5 Algorithmus	Allgemeine Java-Themen	2	29. Feb 2008
E	Container-Pack-Algorithmus	Allgemeine Java-Themen	4	18. Dez 2007
G	k nearest neighbor algorithmus	Allgemeine Java-Themen	7	24. Jan 2007
C	HASH Algorithmus 2 Strings ergeben das Selbe.	Allgemeine Java-Themen	2	24. Jan 2007
P	Page Rank Algorithmus implementieren	Allgemeine Java-Themen	7	10. Dez 2006
T	Problem RSA-Algorithmus in Java?	Allgemeine Java-Themen	2	28. Nov 2006
	Hash-Algorithmus	Allgemeine Java-Themen	9	26. Okt 2006
Y	komprimierung mittels Huffman-Algorithmus, bit-shifting.	Allgemeine Java-Themen	2	14. Mai 2006
K	Algorithmus	Allgemeine Java-Themen	10	3. Mai 2006
C	Algorithmus für Array	Allgemeine Java-Themen	9	14. Feb 2006
I	Verschlüsselung mit Pwd. - User soll Algorithmus wählen	Allgemeine Java-Themen	4	26. Jan 2006
J	fällt euch ein Algorithmus ein?	Allgemeine Java-Themen	4	16. Jan 2006
S	Algorithmus für Sudoku	Allgemeine Java-Themen	17	14. Jan 2006
N	Euklidischer Algorithmus in Java und keine Terminierung.	Allgemeine Java-Themen	7	17. Dez 2005
F	Algorithmus für Sortierung gesucht	Allgemeine Java-Themen	15	31. Aug 2005
T	Algorithmus verbessern	Allgemeine Java-Themen	10	14. Jul 2005

Q - Learning Algorithmus Bug

Feeder

Bekanntes Mitglied

mihe7

Top Contributor

Feeder

Bekanntes Mitglied

httpdigest

Top Contributor

Feeder

Bekanntes Mitglied

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen