对于scikit-learn的文本分类,我是否必须同时使用Countvectorizer和TFIDF?

时间:2017-12-02 13:12:12

标签: text machine-learning scikit-learn text-classification

通过scikit-learn文档代码,它建议首先实现Countvectorizer然后在顶级TFIDF上实现。我只能使用TFIDF吗? http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

enter image description here

如果我只使用TFIDF并且我将预处理的文本作为输入,则它不会采用数据类型(我尝试作为列表和np数组)。有人可以帮忙吗?

2 个答案:

答案 0 :(得分:0)

CV和TFIDF的工作方式不同,我只能使用CV,但我不能使用没有CV的TFIDF,所以我只是想知道。如果它产生相同的结果,它应该没问题。感谢。

答案 1 :(得分:-1)

  1. 在他们展示的示例中,他们在CountVectorizerTfidfTransformer之上使用。直接使用TfidfVectorizer会产生相同的结果。因此,您可以选择所需的加权方案。
  2. 我不太清楚你的问题。 Scikit向量化器可以具有不同类型的输入,范围从列表/字符串数组到文件描述符等。要构造ngrams,它使用参数tokenizer=preprocessor=。你有什么问题吗?