Auf Thema antworten

Also, wenn du jeden Film mit jedem vergleichen willst/musst, dann wirst du so vorgehen müssen.


Wenn du hier von Mathematischen Vektoren redest, dann dürfte das mit dem Arbeitsspeicher gerade noch hinhauen, ansonsten müsstest du das ganze in Blöcke auf teilen und erst jeden Block "in sich vergleichen" und dann immer 2 Blöcke laden und alle aus dem einen Block mit allen aus dem anderen Block vergleichen. Was du hier mit Streams willst (ausser zum Zwichenspeichern auf Platte) kann ich nicht nachvollziehen.


Was mir jetzt so nachträglich auffält wenn du für jede Korrelation einen Datensatz anlegst, bei 817_000 Filmen, dann hast du am ende grob 667.489.000.000 Datensätze, ginge man von (übertriebenen) 256Byte pro Datensatz aus, wären das 170 TB. Mal im ernst 170 T e r r a B y t e und selbst bei einem Byte pro Datensatz wäre es noch 670 GB, ich glaube da musst du dir was anderes einfallen lassen, das verträgt ja keine Datenbank, selbst wenn du einen Server auftreibst, der dir annährend genug Speicher zur Verfügung stellt.



Oben