代表分类信心

时间:2013-08-24 20:48:04

标签: statistics artificial-intelligence classification

我正在开发一个简单的AI程序,使用无监督学习方法对形状进行分类。基本上,我使用两侧之间的边数和角度,并将聚合百分比生成为理想的形状值。这有助于我在结果中创建一些模糊测试。

问题是我如何表示分类的错误程度或信心?例如:一个看起来非常像正方形的小矩形会产生两个类别的夜间成员资格值,但我可以表示错误的程度吗?

由于

2 个答案:

答案 0 :(得分:2)

您的信心基于二手车型。例如,如果您只是根据角度(或边)的数量应用一些规则,则可以使用对象的多维表示:

feature 0, feature 1, ..., feature m

很好,统计方法

您可以根据您的实证结果定义某种置信区间,例如。您可以将多维高斯分布拟合到“矩形对象”的经验观察中,一旦得到一个新对象,您只需检查高斯分布中这种值的概率,并有信心(这很合理假设,您的“观察”错误具有正常分布)。

基于距离的简单方法

较少的统计方法是直接采用模型的决策因子并将其压缩到[0,1]交互。例如,如果您只是在一些度量中测量从某个完美形状到新对象的距离(产生[0,inf)的结果),您可以使用类似S形函数来映射它,例如。

conf( object, perfect_shape ) = 1 - tanh( distance( object, perfect_shape ) )

双曲正切将“压缩”值到[0,1]间隔,唯一剩下要做的就是选择一些缩放因子(因为它增长很快)

tanh

这种方法在数学术语中不太有效,但与神经网络中采用的方法类似。

相对方法

还可以使用距离度量来定义更多的概率方法。如果你的每个“完美形状”都有距离,你可以计算一个物体被假设为某类的概率,该分类是随机进行的,其可能性与完美形状距离的倒数成正比。

dist(object, perfect_shape1) = d_1
dist(object, perfect_shape2) = d_2
dist(object, perfect_shape3) = d_3
...

                             inv( d_i )
conf(object, class_i) = -------------------
                          sum_j inv( d_j )

,其中

inv( d_i ) = max( d_j ) - d_i

<强>结论

前两个想法也可以合并到第三个想法中,以利用所有类的知识。在您的特定示例中,第三种方法应该为矩形和圆形带来大约0.5的置信度,而在第一个示例中,它将更接近0.01(取决于有多少这么小的对象你有“训练”集合,它显示了差异 - 前两种方法显示你对作为一个特定形状本身分类的信心,而第三种方法显示相对自信(所以如果它对其他一些类别来说它可能很低)虽然前两个可以简单地回答“没有分类是自信的”)

答案 1 :(得分:0)

在lejlot提出的问题上建立略微;我倾向于使用马哈拉诺比斯距离和一些挤压功能。马哈拉诺比斯距离M(V, p)可让您衡量分布V和点p之间的距离。

在您的情况下,我会使用每个类的“完美”示例来生成分发V,而p是您想要的分类。然后,您可以使用以下行中的某些内容作为您的置信区间。

1-tanh( M(V, p) )