大型稀疏矩阵,带火花的svd,python

时间:2014-08-17 04:29:46

标签: apache-spark svd

我想分析一下火花数据。如果python不起作用我需要svd矩阵来实现使用python或scala的推荐算法。但数据庞大而且稀少。

数据中有两列。一个是用户名,另一个是项名。 如果用户和项目在一行中,则表示用户喜欢此项目。 有700k项目和20k用户。所以它记忆错误。

如何处理

1 个答案:

答案 0 :(得分:0)

我建议您在scipy csr matrix下加载数据。

存储稀疏矩阵比使用numpy效率更高。

最好。