应用错误收集

大型稀疏矩阵，带火花的svd，python

时间：2014-08-17 04:29:46

标签： apache-spark svd

我想分析一下火花数据。如果python不起作用我需要svd矩阵来实现使用python或scala的推荐算法。但数据庞大而且稀少。

数据中有两列。一个是用户名，另一个是项名。如果用户和项目在一行中，则表示用户喜欢此项目。有700k项目和20k用户。所以它记忆错误。

如何处理

1 个答案:

答案 0 :(得分：0)

我建议您在scipy csr matrix下加载数据。

存储稀疏矩阵比使用numpy效率更高。

最好。