pyspark --- randomForests使用" categoricalFeaturesInfo"指定分类变量。

时间:2015-04-18 14:56:55

标签: apache-spark categories random-forest decision-tree pyspark

如何在pyspark randomForests中指定categoricalFeaturesInfo?

文档在这方面不是很清楚,我尝试了一些像:

categoricalFeaturesInfo = {(12,4)}

categoricalFeaturesInfo = {(12-> 4)}

categoricalFeaturesInfo = {Map [int,int](12,4)}

......等等都没有。非常感谢任何帮助。

2 个答案:

答案 0 :(得分:5)

从我们的python文档:

categoricalFeaturesInfo: Map storing arity of categorical
             features.  E.g., an entry (n -> k) indicates that
             feature n is categorical with k categories indexed
             from 0: {0, 1, ..., k-1}.

尝试使用:

categoricalFeaturesInfo = {12:4}

答案 1 :(得分:0)

对于spark 2.0及以上

它是一本字典 使用键作为rdd(feature)中变量的索引/位置 和价值作为类别数量