Sklearn的imputer v / s df.fillnan用柱的平均值替换nan值

时间:2017-11-04 18:20:54

标签: python pandas dataframe scikit-learn

我找到了两种方法来替换蟒蛇中的纳米值, 一个使用sklearn的imputer类,另一个使用df.fillnan() 使用较少的代码,后者似乎很容易。 但效率明智哪个更好。 任何人都可以解释每个用例。?

1 个答案:

答案 0 :(得分:3)

我觉得计算机课有其自身的好处,因为你可以简单地提及平均值或中位数来执行某些动作,而不像你需要提供值的fillna。但是在imputer中你需要适应和转换数据集,这意味着更多的代码行。但是它可能会比fillna提供更好的速度,但除非真正的大数据集无关紧要。

但是,fillna有一些非常酷的东西。您甚至可以使用自己需要的自定义值来填充na。即使它可能执行得更慢,这使得fillna更好IMHO。