可伸缩性问题枢轴表Pandas / Numpy

时间:2019-07-05 09:19:27

标签: python pandas scalability collaborative-filtering

我正在尝试构建协作式过滤推荐器系统,在其中比较稀疏数据矩阵中的用户和项目。

数据:

5.149.754 unique ids
7.827.435 unique items

数据是隐式的,因此如果用户单击了项目,它们会受到用户的喜欢。因此,每个项目的数据为10

我在可伸缩性方面遇到问题。我正在尝试使用PandasNumPySciPy来建立一个稀疏的用户项矩阵,但是却出现了错误(显然吗?):

Unstacked DataFrame is too big, causing int32 overflow带熊猫枢轴

MemoryError(带有Numpy数据透视表)

即使有{642}行的Pandas DataFrame中包含profileId和itemId,我也遇到了这些错误。可以通过agegender之类的变量将数据分类。

最终,我试图根据尽可能多的用户/项目向用户推荐项目,但是由于我没有使用如此大的数据集的经验,所以我不了解这种系统的局限性。

您将如何实施这样的系统?有必要拆分数据吗?在进行此操作之前,我应该阅读一些库/文档吗?

0 个答案:

没有答案