在什么条件下,两个类可以有不同的平均值,但却无法区分SVM?

时间:2017-05-28 20:11:06

标签: svm

我在问,因为我有时在神经影像学中发现大脑区域在两个实验条件之间可能有不同的平均激活,但有时SVM分类器无法区分这两种条件之间的激活模式。

我的直觉是,在类内方差远大于类间方差的情况下,可能会发生这种情况。例如,假设我们有两个类,A和B,为简单起见,我们的数据只包含整数(而不是向量)。让属于A类的数据为0,0,0,0,0,10,10,10,10,10。让属于B类的数据为1,1,1,1,1,11,11,11,11,11。在这里,A和B平均明显不同,但没有决定边界可以区分A和B.我相信即使我们的数据由向量而不是整数组成,这个逻辑也会成立。

这是一个特例,在某些更广泛的案例中,SVM无法区分平均不同的两个类吗?是否有可能描述SVM分类器无法区分平均不同的两个类的精确条件?

编辑:假设线性SVM。

1 个答案:

答案 0 :(得分:0)

如评论中所述 - 没有这样的条件,因为SVM会将数据分开(我不是在谈论任何概括,只是分离训练数据)。对于答案的其余部分,我假设没有两个相同的点和不同的标签。

非线性案例

对于内核情况,使用类似RBF内核的东西,SVM将始终完美地分离任何训练集,因为C足够大。

线性案例

如果数据是线性可分的,那么再次 - 如果C足够大,它会将数据分开。如果数据不是线性可分的,那么尽可能地增加C将导致越来越小的训练误差(当然,由于数据不能线性分离,因此不会得到0)。

特别是对于您提供的数据,核心SVM将获得100%,而任何线性模型将获得50%,但它与不同的方式或差异关系无关 - 它只是一个数据集,其中任何线性分隔符的准确度至多为50%,确切地说是每个决策点,因此它与SVM无关。特别是它会在中间区分它们,这意味着决策点将在某个地方" 5"。