Tfidf Vectorizer无法正常工作

时间:2017-07-07 13:55:47

标签: python-3.x nlp tf-idf

我有一个语料库(酒店评论),我想做一些NLP流程,包括Tfidf。我的问题是,当我应用Tfidf并打印100个功能时,它不会显示为单个单词而是整个句子。 这是我的代码:

注意:clean_doc是一个函数,可以从停用词,词干等中恢复我的语料库

vectorizer = TfidfVectorizer(analyzer='word',tokenizer=clean_doc, 
max_features=100, lowercase = False, ngram_range=(1,3), min_df = 1)
vz  = vectorizer.fit_transform(list(data['Review']))
feature_names = vectorizer.get_feature_names()
for feature in feature_names:
  print(feature)

它会返回如下内容:

love view  good room
food amazing recommended 
bad services location far
-----

任何想法为什么?在此先感谢

1 个答案:

答案 0 :(得分:0)

您的clean_doc功能很可能出错。 'tokenizer'参数应该是一个将字符串作为输入并返回标记列表的函数。