我正在研究推荐引擎,我现在面临的一个问题是项目的相似性矩阵是巨大的。
我计算了20,000个项目的相似性矩阵,并存储了一个二进制文件,调整为接近1 GB。我认为它太大了。
如果你有很多项目,处理相似性矩阵的最佳方法是什么?
任何建议!
答案 0 :(得分:1)
事实上,相似性矩阵是关于对象如何与另一个对象相似。每行由对象(行id)的邻居组成,但您不需要存储所有邻居,例如仅存储20个邻居。使用lil_matrix:
from scipy.sparse import lil_matrix