从带状疱疹的LSH创建二进制矩阵

时间:2019-03-17 10:42:00

标签: python pandas performance binary-matrix lsh

我有一个文档列表,其中为所有文档创建了带状疱疹。现在,我为这些文档创建一个二进制矩阵,看起来像

     Universal              a   b   c   d
0   [new, year, eve]        1   0   0   1
1   [host, comics, enjoy]   0   1   0   1
2   [share, story, http]    1   0   1   1
3   [what, weather, going]  1   1   1   0

a,b,c,d是我的文档,并且如果通用集中以及同时在a中存在带状疱疹,则会在相应的行和列中放入 1

问题是我有很多文档,并且通用瓦的尺寸很大,使用2 for循环需要20多个小时才能创建此矩阵。有什么快速的路要走吗

0 个答案:

没有答案