应用错误收集

项目到项目的协同过滤，如何管理相似性矩阵？

时间：2017-03-02 02:31:45

标签： recommendation-engine

我正在研究推荐引擎，我现在面临的一个问题是项目的相似性矩阵是巨大的。

我计算了20,000个项目的相似性矩阵，并存储了一个二进制文件，调整为接近1 GB。我认为它太大了。

如果你有很多项目，处理相似性矩阵的最佳方法是什么？

任何建议！

1 个答案:

答案 0 :(得分：1)

事实上，相似性矩阵是关于对象如何与另一个对象相似。每行由对象（行id）的邻居组成，但您不需要存储所有邻居，例如仅存储20个邻居。使用lil_matrix： from scipy.sparse import lil_matrix