从术语 - 频率矩阵或字符串集

时间:2016-04-27 09:07:26

标签: nlp gensim corpus word2vec

我正在尝试使用gensim进行主题分类。我已经拥有以下形式的多个文档中的所有特征词:

corpus = [['word1','word2',..],['A','B',...]] (python list of lists)

以及稀疏形式和词典中的术语 - 频率矩阵。

我试图在此基础上训练gensim LDA:

 lda_model = gensim.models.LdaModel(term_freq_matrix, num_topics=10, id2word=feature_names_dict, passes=4)

但是我收到以下错误:

  File "/home/oliver/Environments/cmpdp/local/lib/python2.7/site-packages/gensim/models/ldamodel.py", line 523, in <genexpr>
    corpus_words = sum(cnt for document in chunk for _, cnt in document)
ValueError: need more than 1 value to unpack

从本教程http://radimrehurek.com/topic_modeling_tutorial/2%20-%20Topic%20Modeling.html开始 似乎一切看起来都没问题,只有稀疏矩阵形式看起来有点不同:

我的语料库:

 print(next(iter(term_freq_matrix)))
  (0, 12036)    1
  (0, 12406)    2
...
  (0, 3916) 1
  (0, 3157) 1

教程语料库: 打印(下一个(ITER(mm_corpus)))

[(24, 1.0), (38, 1.0), (53, 1.0), (103, 1.0), (111, 1.0), (213, 3.0), (237, 1.0), (242, 2.0)]

您怎么看?

0 个答案:

没有答案