LIBSVM有一个python函数grid.py
,据我所知,它使用一个名为grid-search
的方法来应用参数选择。
用法:grid.py [grid_options] [svm_options]数据集
需要多长时间?我有一个庞大的数据集(csv文件有80K行),到目前为止需要24小时以上。有没有办法让脚本更快?
答案 0 :(得分:1)
限制范围
-log2c {begin,end,step | "null"} : set the range of c (default -5,15,2)
-log2g {begin,end,step | "null"} : set the range of g (default 3,-15,-2)
减少n倍交叉验证的次数
-v n : n-fold cross validation (default 5)
当然,仍然需要优化代码,但首先要限制范围。
<强>更新强>
尝试 subset.py 减少数据集,然后运行 grid.py 。我会快速给你见识!
答案 1 :(得分:1)
telnet_workers = []
ssh_workers = []
nr_local_worker = 1
您可以在其中配置外部帮助程序和本地线程数。尝试增加本地线程的数量,直到您的机器(接近)100%加载。