Hallo,
ich entwickle gerade eine Recommendation Engine. Diese hat die Aufgabe, Items (also bspw. Filme) in Vektoren zu wandeln (ein Vektor beschreibt dann einen Film) und diese Vektoren mit allen anderen Vektoren zu vergleichen. Dann werden Korrelationen berechnet und in die DB geschrieben. Man kann sich nun vorstellen, dass bei 817k Filmen eine Menge zusammen kommt und es müssen 817k * 817k -817k Korrelationen berechnet werden.
Das Problem das ich nun habe ist, dass ich keine andere Möglichkeit sehe, als erst alle Filme einzulesen, dann Vektoren zu bilden, dann Korrelationen zu berechnen. Dabei wird natürlich viel Speicher gebraucht und ein Stream wäre wohl schöner. Aber da ich ja alle Filme benötige um die Korrelationen zu berechnen, nützt mir ein Stream nichts ?! Seht ihr noch andere Möglichkeiten? Evtl. ist es noch etwas zu ungenau formuliert....wenn es unverständlich ist, bitte sagen
Gruß und Danke im voraus
Fabian
ich entwickle gerade eine Recommendation Engine. Diese hat die Aufgabe, Items (also bspw. Filme) in Vektoren zu wandeln (ein Vektor beschreibt dann einen Film) und diese Vektoren mit allen anderen Vektoren zu vergleichen. Dann werden Korrelationen berechnet und in die DB geschrieben. Man kann sich nun vorstellen, dass bei 817k Filmen eine Menge zusammen kommt und es müssen 817k * 817k -817k Korrelationen berechnet werden.
Das Problem das ich nun habe ist, dass ich keine andere Möglichkeit sehe, als erst alle Filme einzulesen, dann Vektoren zu bilden, dann Korrelationen zu berechnen. Dabei wird natürlich viel Speicher gebraucht und ein Stream wäre wohl schöner. Aber da ich ja alle Filme benötige um die Korrelationen zu berechnen, nützt mir ein Stream nichts ?! Seht ihr noch andere Möglichkeiten? Evtl. ist es noch etwas zu ungenau formuliert....wenn es unverständlich ist, bitte sagen
Gruß und Danke im voraus
Fabian