我目前正在使用scikit-learn中的LogisticRegression解决多类分类问题。我决定使用LogisticRegression,因为我已经阅读了一些文章,根据它返回的预测概率将其描述为一个经过良好校准的算法。
对于分类器的每个结果,我检查其预测概率以及分类的观察与具有相同决策类的训练集中的其余示例之间的距离。
令我感到惊讶的是,对于一些结果,即使已经预测了一个超过90%置信度的类,余弦相似性度量表明给定的例子平均几乎与具有相同类别的示例集正交。在训练集中。
有人可以提供一些线索,说明为什么会出现这种差异?
我希望对于那些与同一类的其他观测结果相差甚远的例子,LogisticRegression算法会返回低预测概率。
答案 0 :(得分:1)
逻辑回归/分类将提供关于决策边界的结果,但不能保证边界同一侧(即属于同一类)的点将具有较小的余弦距离(甚至小的欧几里德距离) )。
考虑x-y平面中y = 0以下的所有点属于一个类而上述所有点属于另一个类的点。点(-1000,1)和(1000,1)属于同一类,但它们之间的余弦距离相对较大。另一方面,点(1000,1)和(1000,-1)属于不同的类但具有非常小的余弦距离。