我有一个包含一百万字矢量的文件。每个向量的维数为300.
例如: 的 dataFile.txt
word1 [0.1 0.2 0.8 ......第300个值]
word2 [0.3 0.4 0.6 ......第300个值]
... 的 ...
高达百万
我必须在每次采取的两个可能的2对单词之间执行操作,这大约是n * n =百万次计算。
我只有16GB的RAM和4个核心。我会编写python代码,可以使用可用的内存和CPU内核执行快速计算。你能帮忙吗? 我应该遵循可能的策略。请不要mapreduce。