标签: machine-learning svm feature-extraction sampling bigdata
我需要在大型数据集上使用SVM内核进行回归分析。我的笔记本电脑无法处理,完成运行需要数小时。有没有什么好方法可以减少数据集大小而不影响模型的(多)质量?将分层抽样工作?
答案 0 :(得分:1)
有很多几十种降低SVM复杂性的方法,最简单的方法可能是近似内核空间投影。特别是诸如scikit-learn provides functions to do this种显式投影之类的库,其后是线性SVM - 可以快速地进行重新训练。