SVM的数据太多了?

时间:2016-08-02 15:25:32

标签: python scikit-learn svm

所以我在sklearn上运行一个SVM分类器(带有线性内核和概率为false),数据帧上有大约120个特征和10,000个观测值。该程序需要数小时才能运行,并且由于超出计算限制而不断崩溃。只是想知道这个数据帧是否太大了?

3 个答案:

答案 0 :(得分:2)

简而言之,这根本不算太大。线性svm可以进一步扩展。另一方面,libSVC库不能。好的,即使在scikit中 - 你也会有大规模的svm实现 - LinearSVC,它基于liblinear。您也可以使用SGD(也可以在scikitlearn中获得)来解决它,它也会聚合更大的数据集。

答案 1 :(得分:0)

您可以尝试更改算法的参数。

Tips on practical use from the documentation.

你可以尝试不同的算法,这里有一个你可能会觉得有用的备忘单:

enter image description here

答案 2 :(得分:0)

  

该实现基于libsvm。拟合时间复杂度更高   与样本数量的二次方式相比,这使得难以扩展   数据集超过10000个样本。

关于sklearn svm的官方数据告诉theshold是10,000个样本 所以SGD可能是一个更好的尝试。