标签: java apache-spark bigdata mahout random-forest
我有一个包含200万个样本和100万个特征的数据集(它们是文本特征,这就是数字非常大的原因)。我想训练一个随机森林进行分类。培训这么大的数据集的最佳候选者是什么?
答案 0 :(得分:0)
答案 1 :(得分:-1)
除此之外,像Weka这样的分类算法并不适合高维矩阵,因此神经网络可能更适合。
Java中有两个活跃的神经网络库(据我所知),由非常聪明的Zoran Severac编写的Neuroph和由无法模仿的Jeff Heaton编写的Encog。
干杯...