TypeError:doc2bow期望在输入时使用unicode标记数组,而不是使用gensim.corpora.Dictionary()时的单个字符串

时间:2017-06-04 09:22:06

标签: python dictionary gensim

有一个这样的数据框:

  index  terms   
  1345  ['jays', 'place', 'great', 'subway']    
  1543  ['described', 'communicative', 'friendly']    
  9874  ['great', 'sarahs', 'apartament', 'back']    
  2456  ['great', 'sarahs', 'apartament', 'back']  

我尝试从评论语料库['terms']创建一个字典,但我面临一条错误消息!

from gensim import corpora, models
dictionary = corpora.Dictionary( comments['terms'] )

TypeError: doc2bow expects an array of unicode tokens on input, not a single string

1 个答案:

答案 0 :(得分:0)

首先使用comments['terms']comments['terms'].tolist()转换为列表,然后运行语料库,它应该可以正常工作。在创建字典之前,您可以执行其他预处理,例如词干或停用词删除等。