Question

我有一个语料库（酒店评论），我想做一些NLP流程，包括Tfidf。我的问题是，当我应用Tfidf并打印100个功能时，它不会显示为单个单词而是整个句子。这是我的代码：

注意：clean_doc是一个函数，可以从停用词，词干等中恢复我的语料库

vectorizer = TfidfVectorizer(analyzer='word',tokenizer=clean_doc, 
max_features=100, lowercase = False, ngram_range=(1,3), min_df = 1)
vz  = vectorizer.fit_transform(list(data['Review']))
feature_names = vectorizer.get_feature_names()
for feature in feature_names:
  print(feature)

它会返回如下内容：

love view  good room
food amazing recommended 
bad services location far
-----

任何想法为什么？在此先感谢

Answer 1

您的clean_doc功能很可能出错。 'tokenizer'参数应该是一个将字符串作为输入并返回标记列表的函数。

Tfidf Vectorizer无法正常工作

1 个答案: