我正在使用spark-ml研究随机森林算法。我有1000个唯一类别,因此我必须将Maxbins值设置为至少1000。
RandomForestRegressor rf = new RandomForestRegressor().setLabelCol("indexedLabel").setFeaturesCol("indexedFeatures").setMaxBins(1000);
但是算法仍然无法采用正确的maxbins值并给出类似的错误
需求失败:DecisionTree要求maxBins(= 806)位于 至少与每个分类要素中的值数量一样大, 但分类要素0具有1000个值。考虑删除此和 其他具有大量值的分类特征,或添加更多 培训示例。
表示算法集806为maxbins值。我不确定这背后的可能原因是什么以及如何解决它,如果有人知道如何处理此问题,请给我解决方案。
谢谢.. !!