通过scikit-learn文档代码,它建议首先实现Countvectorizer然后在顶级TFIDF上实现。我只能使用TFIDF吗? http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html
如果我只使用TFIDF并且我将预处理的文本作为输入,则它不会采用数据类型(我尝试作为列表和np数组)。有人可以帮忙吗?
答案 0 :(得分:0)
CV和TFIDF的工作方式不同,我只能使用CV,但我不能使用没有CV的TFIDF,所以我只是想知道。如果它产生相同的结果,它应该没问题。感谢。
答案 1 :(得分:-1)
CountVectorizer
和TfidfTransformer
之上使用。直接使用TfidfVectorizer
会产生相同的结果。因此,您可以选择所需的加权方案。tokenizer=
和preprocessor=
。你有什么问题吗?