我的样本中有1个连续特征“ Tenure”和1个分类特征“ Nationality”。我的样本观测结果有50多个不同的国籍和30个不同的任期(0-30年)。在Spark ML中,要确定哪些功能是分类的,您需要在创建DecisionTreeClassifier模型之前按以下方式指定MaxCategories。
val featureIndexer = new VectorIndexer()
.setInputCol("features")
.setOutputCol("indexedFeatures")
.setMaxCategories(5)**
.fit(vecDF)
但是在这种情况下,它是行不通的,因为'Tenure'是连续的,并且与'Nationalities'相比具有较小的值。有没有一种方法可以指定与Spark MLlib中一样的分类功能?谢谢
val categoricalFeaturesInfo = Map[Int, Int]()