标签: apache-spark svd
我想分析一下火花数据。如果python不起作用我需要svd矩阵来实现使用python或scala的推荐算法。但数据庞大而且稀少。
数据中有两列。一个是用户名,另一个是项名。 如果用户和项目在一行中,则表示用户喜欢此项目。 有700k项目和20k用户。所以它记忆错误。
如何处理
答案 0 :(得分:0)
我建议您在scipy csr matrix下加载数据。
存储稀疏矩阵比使用numpy效率更高。
最好。