在没有MapReduce的情况下计算大数据文件。

时间:2015-09-05 03:43:00

标签: algorithm multiprocessing large-data

我有一个包含一百万字矢量的文件。每个向量的维数为300.

例如: 的 dataFile.txt

word1 [0.1 0.2 0.8 ......第300个值]

word2 [0.3 0.4 0.6 ......第300个值]

... ...

高达百万

我必须在每次采取的两个可能的2对单词之间执行操作,这大约是n * n =百万次计算。

我只有16GB的RAM和4个核心。我会编写python代码,可以使用可用的内存和CPU内核执行快速计算。你能帮忙吗? 我应该遵循可能的策略。请不要mapreduce。

0 个答案:

没有答案