应用错误收集

Sklearn的imputer v / s df.fillnan用柱的平均值替换nan值

时间：2017-11-04 18:20:54

标签： python pandas dataframe scikit-learn

我找到了两种方法来替换蟒蛇中的纳米值，一个使用sklearn的imputer类，另一个使用df.fillnan（）使用较少的代码，后者似乎很容易。但效率明智哪个更好。任何人都可以解释每个用例。？

1 个答案:

答案 0 :(得分：3)

我觉得计算机课有其自身的好处，因为你可以简单地提及平均值或中位数来执行某些动作，而不像你需要提供值的fillna。但是在imputer中你需要适应和转换数据集，这意味着更多的代码行。但是它可能会比fillna提供更好的速度，但除非真正的大数据集无关紧要。

但是，fillna有一些非常酷的东西。您甚至可以使用自己需要的自定义值来填充na。即使它可能执行得更慢，这使得fillna更好IMHO。