Spark RandomForest没有获得正确的maxbin值

时间:2019-05-07 07:27:41

标签: apache-spark machine-learning data-science random-forest

我正在使用spark-ml研究随机森林算法。我有1000个唯一类别,因此我必须将Maxbins值设置为至少1000。

RandomForestRegressor rf = new RandomForestRegressor().setLabelCol("indexedLabel").setFeaturesCol("indexedFeatures").setMaxBins(1000);

但是算法仍然无法采用正确的maxbins值并给出类似的错误

  

需求失败:DecisionTree要求maxBins(= 806)位于   至少与每个分类要素中的值数量一样大,   但分类要素0具有1000个值。考虑删除此和   其他具有大量值的分类特征,或添加更多   培训示例。

表示算法集806为maxbins值。我不确定这背后的可能原因是什么以及如何解决它,如果有人知道如何处理此问题,请给我解决方案。

谢谢.. !!

0 个答案:

没有答案