如何在pyspark randomForests中指定categoricalFeaturesInfo?
文档在这方面不是很清楚,我尝试了一些像:
categoricalFeaturesInfo = {(12,4)}
categoricalFeaturesInfo = {(12-> 4)}
categoricalFeaturesInfo = {Map [int,int](12,4)}
......等等都没有。非常感谢任何帮助。
答案 0 :(得分:5)
从我们的python文档:
categoricalFeaturesInfo: Map storing arity of categorical
features. E.g., an entry (n -> k) indicates that
feature n is categorical with k categories indexed
from 0: {0, 1, ..., k-1}.
尝试使用:
categoricalFeaturesInfo = {12:4}
答案 1 :(得分:0)
对于spark 2.0及以上
它是一本字典 使用键作为rdd(feature)中变量的索引/位置 和价值作为类别数量