Question

我理解核心感知器功能的推导，但我试图弄清楚最终公式背后的直觉

f(X) = sum_i (alpha_i*y_i*K(X,x_i))

(x_i,y_i)是培训数据中的所有样本，alpha_i是我们在该样本上犯了错误的次数，X是我们＆＃39;重新尝试预测（在训练期间或其他方面）。现在，我理解为什么核函数被认为是相似性的度量（因为它是更高维空间中的点积），但我不知道的是这个公式是如何结合在一起的。

我最初的尝试是，我们尝试根据样本与其他样本的相似程度来预测样本 - 并将其乘以y_i，以便它提供正确的符号（更接近的点）是标签的更好指标而不是更远的点。但是，为什么我们犯了几个错误的样本会做出更多贡献呢？

tl; dr：在一个Kernelized perceptron中，为什么我们犯了几个错误的样本对预测的贡献超过了我们没有犯过错误的样本？

Answer 1

我最初的尝试是，我们尝试根据与其他样本的相似程度来预测样本 - 并将其乘以y_i，以便它提供正确的符号（更接近的点是更好的指标）标签比距离更远的点。）

这几乎是正在发生的事情。虽然我们的想法是alpha_i*y_i*K(X,x_i)已经被很好地分类，但您不需要进一步更新它。

但如果这一点被错误分类，我们需要更新它。最好的方法是反方向吗？如果结果为负，我们应该添加一个正数量（y_i）。如果结果是可能的（并且它被错误分类），那么我们想要将负值相加（y_i再次）。

正如您所看到的，y_i已经为我们提供了正确的更新方向，因此我们使用错误分类计数器来为该更新提供量级。