支持向量机理解

时间:2015-10-15 11:03:26

标签: machine-learning svm

最近,我一直在阅读讲座和文本,并试图了解SVM如何在更高维度的空间中使用。

在正态逻辑回归中,我们使用这些特征。但在SVM中,我们使用映射来帮助我们获得非线性决策边界。

通常我们直接使用功能..但在内核技巧的帮助下,我们可以使用功能的正方形找到数据中的关系......它们之间的产品等等。这是正确的

我们是在内核的帮助下完成的。

现在..我明白多项式内核对应一个已知的特征向量。但是我无法理解高斯内核对应的(我被告知无限维特征向量...但是什么?)

另外,我无法掌握内核是衡量训练样例之间相似程度的概念 ..这是SVM工作的一部分?

我花了很多时间试图理解这些......但是徒劳无功。任何帮助都会得到很大的帮助!

提前致谢:)

2 个答案:

答案 0 :(得分:1)

  

通常我们直接使用功能..但是在内核技巧的帮助下,我们可以使用功能的正方形找到数据中的关系。它们之间的产品等等。这是正确的吗?

即使使用仍然使用功能的内核,您也可以简单地利用这些功能的更复杂的关系。例如在您的示例中 - 多项式内核使您可以访问要素(例如正方形或要素的乘积)之间的低次多项式关系。

  

现在..我明白多项式内核对应一个已知的特征向量。但是我无法理解高斯核对应的是什么(我被告知无限维特征向量......但是什么?)

高斯核将特征向量映射到非标准化高斯概率密度函数。换句话说,您将每个点映射到函数的空间,其中您的点现在是此点中心的高斯(方差对应于高斯的超参数 gamma 核心)。内核在向量之间始终是点积。特别是,在函数空间L2中,我们将经典点积定义为产品的整数,所以

<f,g> = integral (f*g) (x) dx

其中f,g是高斯分布。

幸运的是,对于两个高斯密度,其乘积的积分也是高斯,这就是为什么高斯核与高斯分布的pdf函数非常相似。

  

另外,我无法理解内核是衡量训练样例之间相似程度的概念。这是SVM工作的一部分吗?

如前所述,内核是点积,点积可以看作是相似性的度量(当两个向量具有相同方向时,它最大化)。然而,它不起作用,您不能将每个相似性度量用作内核,因为并非每个相似性度量都是有效的点积。

答案 1 :(得分:0)

在我开始回答问题之前,只对svm进行了一些介绍。这将帮助您获得有关svm的概述。 Svm的任务是找到能最好地分离数据的最佳余量最大化超平面。我们有svm的软边距表示形式,也称为原始形式,其等效形式是svm的对偶形式。双重形式的svm利用了内核技巧。

当我们拥有非线性数据集(例如,同心圆形状的数据集)时,内核技巧将部分替代特征工程,这是机器学习中最重要的一步。

现在,您可以通过FE和内核技巧将数据集从非线性转换为线性。通过有限元分析,您可以对数据集中的每个特征求平方,然后将其转换为线性数据集,然后可以应用最适合线性数据的逻辑回归等技术。

在内核技巧中,您可以使用一般形式为(a + x_i(transpose)x_j)^ d的多项式内核,其中a和d为常数,而d指定次数,假设如果次数为2,则可以说是二次方的现在假设我们应用d = 2,现在我们的方程变为(a + x_i(transpose)x_j)^ 2。现在让我们在原始数据集中的2个特征(例如,对于x_1矢量为[x_11,x__12],对于x_2矢量为[x_21,x_22]),现在在此上应用多项式核时,我们得到6维矢量。现在我们已经将特征从2-d转换为6-d。现在您可以直观地看到更高的数据维度将更好地支持svm,因为它将最终将特征转换到更高的空间。实际上,svm的最佳情况是如果您具有较高的维数,则选择svm。

现在您既可以看到内核技巧,也可以看到Feature Engineering解决并转换数据集(同心圆一个),但是区别在于我们正在显式执行有限元分析,而svm隐含了内核技巧。还有一个通用内核,称为径向基函数内核,可以在不预先知道内核的情况下使用。 如果sigma的值设置为1,则RBF内核具有一个参数(sigma),那么您会得到一条看起来像高斯曲线的曲线。

您只能将内核视为相似度度量,并且可以解释点之间的距离是否较小,相似度越高。