选择SVM的训练数据

时间:2015-04-17 19:44:16

标签: machine-learning libsvm

我知道这里曾多次提出过类似的问题,但我还有另外一点我不清楚。

我有1098张图片正在尝试分类。作为一般规则(根据我的阅读),数据的分割是

80/20 - 训练/测试

80%的培训数据

80/20或90/10进行20倍或10倍的交叉验证。

现在我遇到的问题是数据的原始80/20分割是随机完成的。因此,如果我重复数据的随机抽样(进入训练/测试用例)一百次并执行交叉验证,我发现最佳SVM参数正在发生变化。

所以基本上,我很困惑我应该如何分割数据,当我随机进行时,我不会在每个样本上得到可重复的结果。我该怎么办?

我正在使用带有RBF内核的libsvm。对数据进行30次抽样的例子给出了以下内容:

文本格式不正确,因此我附加了包含该信息的文本文件的链接。 括号中的值为[C gamma]。

http://goo.gl/jd0DNT

如何选择最佳训练集以及如何选择最佳参数......是否有智能的方法?

1 个答案:

答案 0 :(得分:0)

随机函数的类似再现性问题的一般解决方案是

  • 执行一次随机功能并永远保持结果
  • 使用相同的种子使随机函数本身可重现

无论如何,我认为你试图通过第一次分裂来超越交叉验证。