有一个这样的数据框:
index terms
1345 ['jays', 'place', 'great', 'subway']
1543 ['described', 'communicative', 'friendly']
9874 ['great', 'sarahs', 'apartament', 'back']
2456 ['great', 'sarahs', 'apartament', 'back']
我尝试从评论语料库['terms']创建一个字典,但我面临一条错误消息!
from gensim import corpora, models
dictionary = corpora.Dictionary( comments['terms'] )
TypeError: doc2bow expects an array of unicode tokens on input, not a single string
答案 0 :(得分:0)
首先使用comments['terms']
将comments['terms'].tolist()
转换为列表,然后运行语料库,它应该可以正常工作。在创建字典之前,您可以执行其他预处理,例如词干或停用词删除等。