weka加快了性能

时间:2013-12-11 02:33:32

标签: ubuntu machine-learning weka

我正在使用weka CLI使用Ubuntu使用不同的算法(如C4.5,SVM等)处理超过200,000个数据集。但是,我注意到结果需要3周以上!

我搜索了不同的解决方案,其中一个声明要增加Java的内存大小。我这样做了(如下图所示),但没有提高性能。

i.e:    java -Xmx4096m  weka.classifiers.meta.MetaCost -C Cost_10.cost -W weka.classifiers.trees.J48 -t comb_1.arff -x 10

我可以使用任何解决方案来提高性能,以减少获得结果的时间吗?

由于

1 个答案:

答案 0 :(得分:0)

这取决于您是否因为需要它们而创建模型(1)或评估算法(2)。

对于1),您可以:   - 减少您正在创建的分类器的数量   - 通过选择适当的参数(作为树的数量和随机森林中使用的特征数量)来降低分类器的复杂性   - 在Weka算法很慢的情况下实现自己的优化算法版本

2),你可以:

  1. 将200 k个数据集聚类为10到1000个组(基于特征的数量和类型,......)。
  2. 在每个组的几个选定数据集上运行分类器
  3. 通过在有限选定群组的所有数据集上再次运行分类器来确定您感兴趣的内容并确认您的假设。