Question

有一个这样的数据框：

  index  terms   
  1345  ['jays', 'place', 'great', 'subway']    
  1543  ['described', 'communicative', 'friendly']    
  9874  ['great', 'sarahs', 'apartament', 'back']    
  2456  ['great', 'sarahs', 'apartament', 'back']

我尝试从评论语料库['terms']创建一个字典，但我面临一条错误消息！

from gensim import corpora, models
dictionary = corpora.Dictionary( comments['terms'] )

TypeError: doc2bow expects an array of unicode tokens on input, not a single string

Answer 1

首先使用comments['terms']将comments['terms'].tolist()转换为列表，然后运行语料库，它应该可以正常工作。在创建字典之前，您可以执行其他预处理，例如词干或停用词删除等。

TypeError：doc2bow期望在输入时使用unicode标记数组，而不是使用gensim.corpora.Dictionary（）时的单个字符串

1 个答案: