应用错误收集

时间：2015-03-25 09:22:02

标签： java apache-spark bigdata mahout random-forest

我有一个包含200万个样本和100万个特征的数据集（它们是文本特征，这就是数字非常大的原因）。我想训练一个随机森林进行分类。培训这么大的数据集的最佳候选者是什么？

答案 0 :(得分：0)

经过这么多的投票，由于我已经解决了我的问题，我想分享一下。我使用Spark，因为它目前对Random forest有很好的支持，并允许用户导出训练模型并在预测阶段加载它。 Spark允许在分布式集群中进行内存计算。我的经验是，火花中的随机森林很容易用于这种情况。

答案 1 :(得分：-1)

除此之外，像Weka这样的分类算法并不适合高维矩阵，因此神经网络可能更适合。

Java中有两个活跃的神经网络库（据我所知），由非常聪明的Zoran Severac编写的Neuroph和由无法模仿的Jeff Heaton编写的Encog。

干杯...