我有一个df
,其条目通常是'yyyymmdd'
个日期字符串,但也有一些'nan'
个值。请注意,这些'nan'
是字符串而不是浮点数。现在我想将df中的所有日期字符串转换为pandas datetime格式,同时将nan
值转换为NaN
,NaT
等,pd.isnull
可以检测到任何内容
立即考虑使用带有errors
参数的pd.to_datetime
函数。如文档中所述,
errors : {'ignore', 'raise', 'coerce'}
,默认'raise'
- 如果'raise'
,则无效解析将引发异常
- 如果'coerce'
,则无效解析将设置为NaT
- 如果'ignore'
,则无效解析将返回输入
所以,我尝试了我的示例df
001002.XY 600123.AB 123456.YZ 555555.GO
ipo_date 20100203 20150605 nan 20090501
delist_date nan 20170801 nan nan
其中所有值均为str
,甚至nan
实际为'nan'
。然后我尝试了pd.to_datetime(df, errors='coerce')
,它引发了我:
Traceback (most recent call last):
File "D:\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 2881, in run_code
exec(code_obj, self.user_global_ns, self.user_ns)
File "<ipython-input-27-43c41318d6ab>", line 1, in <module>
pd.to_datetime(df, errors='coerce')
File "D:\Anaconda3\lib\site-packages\pandas\core\tools\datetimes.py", line 512, in to_datetime
result = _assemble_from_unit_mappings(arg, errors=errors)
File "D:\Anaconda3\lib\site-packages\pandas\core\tools\datetimes.py", line 591, in _assemble_from_unit_mappings
"[{0}] is missing".format(','.join(req)))
ValueError: to assemble mappings requires at least that [year, month, day] be specified: [day,month,year] is missing
然而,如果我尝试使用单个细胞,那就很好了:
pd.to_datetime(df.iloc[0, 0])
Out[33]:
Timestamp('2010-02-03 00:00:00')
pd.to_datetime(df.iloc[1, 0])
Out[34]:
NaT
我无法弄清楚发生了什么。尽管如此,所有列的object
都为dtype
:
df.dtypes
Out[35]:
001002.XY object
600123.AB object
123456.YZ object
555555.GO object
dtype: object
但这似乎不是罪魁祸首:我也测试了各个列,并且它们运行良好:
pd.to_datetime(df.iloc[:, 0])
Out[36]:
ipo_date 2010-02-03
delist_date NaT
Name: 001002.XY, dtype: datetime64[ns]
有人可以帮忙或解释一下吗?谢谢!
答案 0 :(得分:2)
应该略有不同 - 将pd.to_datetime
应用于所有列:
In [6]: df.apply(pd.to_datetime, errors='coerce')
Out[6]:
001002.XY 600123.AB 123456.YZ 555555.GO
ipo_date 2010-02-03 2015-06-05 NaT 2009-05-01
delist_date NaT 2017-08-01 NaT NaT
如果您将DataFrame传递给pd.to_datetime()
- 它会预期(年,月,日和可选:小时,分钟,秒)等列,以便合并来自不同列的日期时间。
来自docs:
从DataFrame的多个列组装日期时间。按键 可以是常见缩写,例如[
year
,month
,day
,minute
,second
,ms
,us
,ns
])或复数