SciKit SGD回归RBF核近似

时间:2013-11-15 17:39:00

标签: machine-learning scikit-learn

我正在使用scikit-learn,并希望使用RBF内核运行SVR。我的数据集非常大,所以通过阅读其他帖子,我被建议使用SGD回归和RBF近似。有趣的是,与使用SGD本身相比,使用SGD和RBF会导致更糟糕的结果。我想这可能是由于参数值错误造成的。我试着通过gamma和n_components为RBF采样器循环,并为SGD regessor尝试了许多参数无济于事。我也输出了训练和交叉验证错误,两者大致相同,所以我认为这是一个偏见问题。

1 个答案:

答案 0 :(得分:4)

为什么您认为RBF特征空间必须具有比线性特征空间更高的精度?虽然情况经常如此,但没有理由相信必须如此。有一整套真实世界数据,RBF内核做得不好

除此之外,还有许多其他问题可以提出/探讨。如果没有其他人使用/探索您的数据,这些问题通常是不可思议的。如:

  • 原始要素值是否已正确规范化?
  • 使用的近似方法是否适合数据量/数据类型
  • 问题是否有条件限制或病情严重?如果是这样 - 我们的近似值是近似误差的原因吗?
  • 原始功能是否足够有意义,可以使用RBF?
  • 测试的参数值是否适合我的数据及其缩放?
  • 目前获得的错误率是多少?疼痛可行错误率的合理期望是什么?