Spark ML DecisionTreeClassifier识别分类特征

时间:2019-02-22 05:10:47

标签: scala apache-spark decision-tree

我的样本中有1个连续特征“ Tenure”和1个分类特征“ Nationality”。我的样本观测结果有50多个不同的国籍和30个不同的任期(0-30年)。在Spark ML中,要确定哪些功能是分类的,您需要在创建DecisionTreeClassifier模型之前按以下方式指定MaxCategories。

val featureIndexer = new VectorIndexer()
.setInputCol("features")
.setOutputCol("indexedFeatures")
.setMaxCategories(5)**
.fit(vecDF)

但是在这种情况下,它是行不通的,因为'Tenure'是连续的,并且与'Nationalities'相比具有较小的值。有没有一种方法可以指定与Spark MLlib中一样的分类功能?谢谢

val categoricalFeaturesInfo = Map[Int, Int]()

0 个答案:

没有答案