使用Spark MLlib决策树时如何处理缺失的数字特征?

时间:2017-05-18 20:00:45

标签: scala apache-spark apache-spark-mllib feature-extraction

在Spark MLlib中使用决策树时,如何处理缺少的数字功能?

我正在考虑用其他值的平均值替换缺失的特征,但是我不确定对模型质量的影响是什么。 Spark MLlib是否为这个常见问题提供了任何支持?

1 个答案:

答案 0 :(得分:1)

每个DataFrame都可以利用DataFrameNaFunctions,它可以drop违规记录(不是整列),fill可以用静态“虚拟数据”填充违规数据或{{1} }可以用指定的数据替换违规数据。

https://spark.apache.org/docs/2.1.1/api/scala/#org.apache.spark.sql.DataFrameNaFunctions

replace