Question

我得到的结果为系数nan。我的数据集有两列：推文和摄取日期。我已经完全复制了代码，只是进行了一些替换，如tweet-prepreocessor。有什么想法吗？原始文件是否需要目标和目标名称列，如教程？

# Build LDA model
lda_model = gensim.models.ldamodel.LdaModel(corpus=corpus,
                                           id2word=id2word,
                                           num_topics=20, 
                                           random_state=100,
                                           update_every=1,
                                           chunksize=100,
                                           passes=10,
                                           alpha='auto',
                                           per_word_topics=True)
# Print the Keyword in the 10 topics
pprint(lda_model.print_topics())
doc_lda = lda_model[corpus]

[(0,
  'nan*"fortnite" + nan*"louis" + nan*"yvr" + nan*"knowhttps" + '
  'nan*"problematic" + nan*"zellepay" + nan*"ritual" + nan*"underway" + '
  'nan*"mot" + nan*"tsb"'),
 (1,
  'nan*"fortnite" + nan*"louis" + nan*"yvr" + nan*"knowhttps" + '
  'nan*"problematic" + nan*"zellepay" + nan*"ritual" + nan*"underway" + '
  'nan*"mot" + nan*"tsb"'),
 (2,
  'nan*"fortnite" + nan*"louis" + nan*"yvr" + nan*"knowhttps" + '
  'nan*"problematic" + nan*"zellepay" + nan*"ritual" + nan*"underway" + '
  'nan*"mot" + nan*"tsb"'),
 (3,
  'nan*"fortnite" + nan*"louis" + nan*"yvr" + nan*"knowhttps" + '
  'nan*"problematic" + nan*"zellepay" + nan*"ritual" + nan*"underway" + '
  'nan*"mot" + nan*"tsb"'),
 (4,...

Answer 1

不允许对您的问题发表评论，但我从同一教程中遇到了相同的错误。我还没有看到任何解决方案，也不确定可能是什么问题。短语和预处理都相同，由于某种原因，没有其他人收到此错误。我认为这与target_names没有任何关系，因为有一次她将内容值转换为列表（我也这样做：df.content.values.tolist())并专门处理

更新：如果遇到此问题，请升级numpy版本（这是一个numpy问题）。对我来说，conda install numpy =“ 1.14.5”可以正常工作。

Answer 2

我通过将numpy升级到1.15.0版本来解决此问题。

Gensim系数是nan并且都是相同的

2 个答案: