项目到项目的协同过滤,如何管理相似性矩阵?

时间:2017-03-02 02:31:45

标签: recommendation-engine

我正在研究推荐引擎,我现在面临的一个问题是项目的相似性矩阵是巨大的。

我计算了20,000个项目的相似性矩阵,并存储了一个二进制文件,调整为接近1 GB。我认为它太大了。

如果你有很多项目,处理相似性矩阵的最佳方法是什么?

任何建议!

1 个答案:

答案 0 :(得分:1)

事实上,相似性矩阵是关于对象如何与另一个对象相似。每行由对象(行id)的邻居组成,但您不需要存储所有邻居,例如仅存储20个邻居。使用lil_matrix: from scipy.sparse import lil_matrix