如何处理Python Pandas DataFrame的缺失值datetime64 [ns] dtype列?

时间:2020-07-29 16:47:24

标签: python pandas dataframe datetime64

如果我有类似这样的数据,则“ Date4”列中的值缺失,它是datetime64 [ns] dtype。

  • 在这种情况下如何处理缺失值?
  • 如果我想用最频繁的日期填写该怎么办?

我已经在多个网站上搜索了该解决方案,但仍未找到正确的答案。

   No  Name      Date1      Date2      Date3      Date4
0   1  Per1 2015-05-25 2016-03-20 2016-03-22 2017-01-01
1   2  Per2 2015-06-26 2016-05-22 2016-06-22 2017-02-02
2   3  Per3 2015-09-28 2016-07-24 2016-07-26 2017-05-22
3   4  Per4 2015-11-21 2016-09-02 2016-05-09 2017-05-22
4   5  Per5 2015-12-25 2016-11-11 2016-11-14        NaT

2 个答案:

答案 0 :(得分:1)

In [135]: df
Out[135]:
       Date4
0 2017-01-01
1 2017-02-02
2 2017-05-22
3 2017-05-22
4        NaT

In [136]: df["Date4"].replace(np.nan, df["Date4"].mode().iloc[0])
Out[136]:
0   2017-01-01
1   2017-02-02
2   2017-05-22
3   2017-05-22
4   2017-05-22
Name: Date4, dtype: datetime64[ns]

答案 1 :(得分:0)

您刚刚描述的内容称为输入。 Sklearn的SimpleImputer()做得很好。您甚至可以指定如何填充缺失值。

imp=SimpleImputer(missing_values=np.nan, strategy = 'most_frequent')
df=pd.DataFrame(imp.fit_transform(df))