我在github上发布了此问题(https://github.com/piskvorky/gensim/issues/274)
但是,我需要有关如何实际使用gensim所具有的numpy兼容性的帮助。
我尝试传入无,len(corpus)
和0-2全部失败。
以下是语料库:
[(0, 1.0), (1, 1.0), (2, 1.0)]
[(0, 1.0), (3, 1.0), (4, 1.0), (5, 1.0), (6, 1.0), (7, 1.0)]
[(2, 1.0), (5, 1.0), (7, 1.0), (8, 1.0)]
[(1, 1.0), (5, 2.0), (8, 1.0)]
[(3, 1.0), (6, 1.0), (7, 1.0)]
[(9, 1.0)]
[(9, 1.0), (10, 1.0)]
[(9, 1.0), (10, 1.0), (11, 1.0)]
[(4, 1.0), (10, 1.0), (11, 1.0)]
这是我的iPython笔记本中没有的代码:
from gensim import matutils
corpus = corpora.MmCorpus('/tmp/corpus.mm')
import numpy
numpy_matrix = matutils.corpus2dense(corpus)
抛出IndexErrors
答案 0 :(得分:3)
正如我的评论中所述,它应该是2*len(corpus)
而不是len(corpus)
。