我有一个语料库(酒店评论),我想做一些NLP流程,包括Tfidf。我的问题是,当我应用Tfidf并打印100个功能时,它不会显示为单个单词而是整个句子。 这是我的代码:
注意:clean_doc是一个函数,可以从停用词,词干等中恢复我的语料库
vectorizer = TfidfVectorizer(analyzer='word',tokenizer=clean_doc,
max_features=100, lowercase = False, ngram_range=(1,3), min_df = 1)
vz = vectorizer.fit_transform(list(data['Review']))
feature_names = vectorizer.get_feature_names()
for feature in feature_names:
print(feature)
它会返回如下内容:
love view good room
food amazing recommended
bad services location far
-----
任何想法为什么?在此先感谢
答案 0 :(得分:0)
您的clean_doc
功能很可能出错。 'tokenizer'参数应该是一个将字符串作为输入并返回标记列表的函数。