我正在尝试使用sklearn中的SVM来解决分类问题。我得到了一个高度稀疏的数据集,其中包含超过50K的行和二进制输出 问题是我不太清楚如何有效地选择参数,主要是内核,gamma anc C.
对于内核,例如,我是否应该尝试所有内核,只保留给我最满意结果的内容,或者在选择内核之前,我们可以在第一时间看到与我们的数据相关的内容?登记/> C和伽玛也一样。
谢谢!
答案 0 :(得分:0)
是的,这主要是实验问题 - 特别是因为您对数据集的了解很少:可分性,线性,密度,连通性......影响分类算法的所有特征。 / p>
为初学者尝试线性和高斯内核。如果线性不能正常工作而Gaussian有效,那么尝试其他内核。
一旦找到了最好的1或2个内核,然后就会使用cost和gamma参数。 Gamma是一个"松弛"参数:它允许内核允许将一定比例的原始分类错误作为其他好处的权衡:差距的宽度,分区函数的简单性等。
我还没有申请通过改变成本获得更多的微不足道的好处。