应用错误收集

时间：2017-12-02 13:12:12

标签： text machine-learning scikit-learn text-classification

通过scikit-learn文档代码，它建议首先实现Countvectorizer然后在顶级TFIDF上实现。我只能使用TFIDF吗？ http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

如果我只使用TFIDF并且我将预处理的文本作为输入，则它不会采用数据类型（我尝试作为列表和np数组）。有人可以帮忙吗？

答案 0 :(得分：0)

CV和TFIDF的工作方式不同，我只能使用CV，但我不能使用没有CV的TFIDF，所以我只是想知道。如果它产生相同的结果，它应该没问题。感谢。

答案 1 :(得分：-1)

在他们展示的示例中，他们在CountVectorizer和TfidfTransformer之上使用。直接使用TfidfVectorizer会产生相同的结果。因此，您可以选择所需的加权方案。
我不太清楚你的问题。 Scikit向量化器可以具有不同类型的输入，范围从列表/字符串数组到文件描述符等。要构造ngrams，它使用参数tokenizer=和preprocessor=。你有什么问题吗？