应用错误收集

相似性度量scikit-学习文档分类

时间：2016-04-18 07:35:33

标签： python-2.7 scikit-learn text-classification

我正在使用scikit-learn进行文档分类方面的工作。为此，我在tf-idf矩阵中表示我的文档，并使用此信息提供随机森林分类器，效果非常好。我只是想知道分类器使用哪种相似性度量（余弦，欧几里德等）以及如何改变它。未在文档中找到任何参数或信息。

提前致谢！

1 个答案:

答案 0 :(得分：0)

与大多数监督学习算法一样，随机森林分类器不使用相似性度量，它们直接用于提供给它们的特征。因此，决策树是基于tf-idf向量中的术语构建的。

如果要使用相似性，则必须为文档计算相似度矩阵，并将其用作特征。