为2M数据样本运行随机森林分类器有哪些好的库?

时间:2015-03-25 09:22:02

标签: java apache-spark bigdata mahout random-forest

我有一个包含200万个样本和100万个特征的数据集(它们是文本特征,这就是数字非常大的原因)。我想训练一个随机森林进行分类。培训这么大的数据集的最佳候选者是什么?

2 个答案:

答案 0 :(得分:0)

经过这么多的投票,由于我已经解决了我的问题,我想分享一下。我使用Spark,因为它目前对Random forest有很好的支持,并允许用户导出训练模型并在预测阶段加载它。 Spark允许在分布式集群中进行内存计算。我的经验是,火花中的随机森林很容易用于这种情况。

答案 1 :(得分:-1)

除此之外,像Weka这样的分类算法并不适合高维矩阵,因此神经网络可能更适合。

Java中有两个活跃的神经网络库(据我所知),由非常聪明的Zoran Severac编写的Neuroph和由无法模仿的Jeff Heaton编写的Encog。

干杯...