pandas to_datetime无法按预期工作

时间:2017-11-11 10:00:52

标签: python pandas

我有一个df,其条目通常是'yyyymmdd'个日期字符串,但也有一些'nan'个值。请注意,这些'nan'字符串而不是浮点数。现在我想将df中的所有日期字符串转换为pandas datetime格式,同时将nan值转换为NaNNaT等,pd.isnull可以检测到任何内容

立即考虑使用带有errors参数的pd.to_datetime函数。如文档中所述,

  

errors : {'ignore', 'raise', 'coerce'},默认'raise'
   - 如果'raise',则无效解析将引发异常
   - 如果'coerce',则无效解析将设置为NaT
   - 如果'ignore',则无效解析将返回输入

所以,我尝试了我的示例df

            001002.XY 600123.AB 123456.YZ 555555.GO
ipo_date     20100203  20150605       nan  20090501
delist_date       nan  20170801       nan       nan

其中所有值均为str,甚至nan实际为'nan'。然后我尝试了pd.to_datetime(df, errors='coerce'),它引发了我:

Traceback (most recent call last):
  File "D:\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 2881, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)
  File "<ipython-input-27-43c41318d6ab>", line 1, in <module>
    pd.to_datetime(df, errors='coerce')
  File "D:\Anaconda3\lib\site-packages\pandas\core\tools\datetimes.py", line 512, in to_datetime
    result = _assemble_from_unit_mappings(arg, errors=errors)
  File "D:\Anaconda3\lib\site-packages\pandas\core\tools\datetimes.py", line 591, in _assemble_from_unit_mappings
    "[{0}] is missing".format(','.join(req)))
ValueError: to assemble mappings requires at least that [year, month, day] be specified: [day,month,year] is missing

然而,如果我尝试使用单个细胞,那就很好了:

pd.to_datetime(df.iloc[0, 0])
Out[33]: 
Timestamp('2010-02-03 00:00:00')
pd.to_datetime(df.iloc[1, 0])
Out[34]: 
NaT

我无法弄清楚发生了什么。尽管如此,所有列的object都为dtype

df.dtypes
Out[35]: 
001002.XY    object
600123.AB    object
123456.YZ    object
555555.GO    object
dtype: object

但这似乎不是罪魁祸首:我也测试了各个列,并且它们运行良好:

pd.to_datetime(df.iloc[:, 0])
Out[36]: 
ipo_date      2010-02-03
delist_date          NaT
Name: 001002.XY, dtype: datetime64[ns]

有人可以帮忙或解释一下吗?谢谢!

1 个答案:

答案 0 :(得分:2)

应该略有不同 - 将pd.to_datetime应用于所有列:

In [6]: df.apply(pd.to_datetime, errors='coerce')
Out[6]:
             001002.XY  600123.AB 123456.YZ  555555.GO
ipo_date    2010-02-03 2015-06-05       NaT 2009-05-01
delist_date        NaT 2017-08-01       NaT        NaT

如果您将DataFrame传递给pd.to_datetime() - 它会预期(年,月,日和可选:小时,分钟,秒)等列,以便合并来自不同列的日期时间。

来自docs

  

从DataFrame的多个列组装日期时间。按键   可以是常见缩写,例如[yearmonthdayminute,   secondmsusns])或复数