应用错误收集

我的样本中有1个连续特征“ Tenure”和1个分类特征“ Nationality”。我的样本观测结果有50多个不同的国籍和30个不同的任期（0-30年）。在Spark ML中，要确定哪些功能是分类的，您需要在创建DecisionTreeClassifier模型之前按以下方式指定MaxCategories。

val featureIndexer = new VectorIndexer()
.setInputCol("features")
.setOutputCol("indexedFeatures")
.setMaxCategories(5)**
.fit(vecDF)

但是在这种情况下，它是行不通的，因为'Tenure'是连续的，并且与'Nationalities'相比具有较小的值。有没有一种方法可以指定与Spark MLlib中一样的分类功能？谢谢

val categoricalFeaturesInfo = Map[Int, Int]()

Spark ML DecisionTreeClassifier识别分类特征

0 个答案: