Gensim系数是nan并且都是相同的

时间:2018-06-14 04:30:21

标签: python machine-learning gensim lda

我正在关注this tutorial

我得到的结果为系数nan。我的数据集有两列:推文和摄取日期。我已经完全复制了代码,只是进行了一些替换,如tweet-prepreocessor。有什么想法吗?原始文件是否需要目标和目标名称列,如教程?

# Build LDA model
lda_model = gensim.models.ldamodel.LdaModel(corpus=corpus,
                                           id2word=id2word,
                                           num_topics=20, 
                                           random_state=100,
                                           update_every=1,
                                           chunksize=100,
                                           passes=10,
                                           alpha='auto',
                                           per_word_topics=True)
# Print the Keyword in the 10 topics
pprint(lda_model.print_topics())
doc_lda = lda_model[corpus]

[(0,
  'nan*"fortnite" + nan*"louis" + nan*"yvr" + nan*"knowhttps" + '
  'nan*"problematic" + nan*"zellepay" + nan*"ritual" + nan*"underway" + '
  'nan*"mot" + nan*"tsb"'),
 (1,
  'nan*"fortnite" + nan*"louis" + nan*"yvr" + nan*"knowhttps" + '
  'nan*"problematic" + nan*"zellepay" + nan*"ritual" + nan*"underway" + '
  'nan*"mot" + nan*"tsb"'),
 (2,
  'nan*"fortnite" + nan*"louis" + nan*"yvr" + nan*"knowhttps" + '
  'nan*"problematic" + nan*"zellepay" + nan*"ritual" + nan*"underway" + '
  'nan*"mot" + nan*"tsb"'),
 (3,
  'nan*"fortnite" + nan*"louis" + nan*"yvr" + nan*"knowhttps" + '
  'nan*"problematic" + nan*"zellepay" + nan*"ritual" + nan*"underway" + '
  'nan*"mot" + nan*"tsb"'),
 (4,...

2 个答案:

答案 0 :(得分:1)

不允许对您的问题发表评论,但我从同一教程中遇到了相同的错误。我还没有看到任何解决方案,也不确定可能是什么问题。短语和预处理都相同,由于某种原因,没有其他人收到此错误。我认为这与target_names没有任何关系,因为有一次她将内容值转换为列表(我也这样做:df.content.values.tolist())并专门处理

更新:如果遇到此问题,请升级numpy版本(这是一个numpy问题)。对我来说,conda install numpy =“ 1.14.5”可以正常工作。

答案 1 :(得分:-1)

我通过将numpy升级到1.15.0版本来解决此问题。