我想知道mllib中所有可用的模型是否都需要Double类型的输入变量? 我目前正在努力使我的Gradient Boosting Classifier与pyspark 2.3.0一起运行。我目前有类型为Integer,Boolean和Double的输入变量。我已经使用OneHotEncoderEstimator转换了分类String列。
我只阅读了pyspark文档,以下内容来自官方文档:
梯度增强树(GBT)是决策树的集合。 GBT 迭代地训练决策树以最小化损失函数。 像决策树一样,GBT处理类别特征,并扩展到 多类分类设置,不需要要素缩放,并且 能够捕获非线性和特征相互作用。
spark.mllib支持GBT用于二进制分类和 回归,使用连续和分类特征。 spark.mllib使用现有的决策树实现GBT 实施。请参阅决策树指南以了解更多信息 有关树木的信息。
https://spark.apache.org/docs/2.3.0/mllib-ensembles.html#gradient-boosted-trees-gbtsstrong文字