在Spark MLlib中使用决策树时,如何处理缺少的数字功能?
我正在考虑用其他值的平均值替换缺失的特征,但是我不确定对模型质量的影响是什么。 Spark MLlib是否为这个常见问题提供了任何支持?
答案 0 :(得分:1)
每个DataFrame都可以利用DataFrameNaFunctions,它可以drop
违规记录(不是整列),fill
可以用静态“虚拟数据”填充违规数据或{{1} }可以用指定的数据替换违规数据。
https://spark.apache.org/docs/2.1.1/api/scala/#org.apache.spark.sql.DataFrameNaFunctions
replace