所以我在sklearn上运行一个SVM分类器(带有线性内核和概率为false),数据帧上有大约120个特征和10,000个观测值。该程序需要数小时才能运行,并且由于超出计算限制而不断崩溃。只是想知道这个数据帧是否太大了?
答案 0 :(得分:2)
简而言之不,这根本不算太大。线性svm可以进一步扩展。另一方面,libSVC库不能。好的,即使在scikit中 - 你也会有大规模的svm实现 - LinearSVC,它基于liblinear。您也可以使用SGD(也可以在scikitlearn中获得)来解决它,它也会聚合更大的数据集。
答案 1 :(得分:0)
答案 2 :(得分:0)
该实现基于libsvm。拟合时间复杂度更高 与样本数量的二次方式相比,这使得难以扩展 数据集超过10000个样本。
关于sklearn svm的官方数据告诉theshold是10,000个样本 所以SGD可能是一个更好的尝试。