我需要分析一个大型数据集,其日期具有几种不同的格式:
Mon, 04 Nov 2019 06:12:44 -0800 (PST)
Mon, 4 Nov 2019 15:16:58 +0100 (CET)
Mon, 4 Nov 2019 08:03:13 +0000 (UTC)
Mon, 4 Nov 2019 12:05:54 +0100
dfMail.Date = pd.to_datetime(dfMail.Date, format = "%a, %d %b %Y %H:%M:%S %z")
返回错误:ValueError:仍保留未转换的数据:(PST)
转换这些日期的最佳策略是什么?
谢谢
答案 0 :(得分:1)
我看到default-storage-engine=MYISAM
扩展名可能很麻烦。在这种情况下,您可以忽略它:
()
输入:
pd.to_datetime(dfMail.Date.str.replace('( \(.*\))', ''), utc=True)
输出:
Date
0 Mon, 04 Nov 2019 06:12:44 -0800 (PST)
1 Mon, 4 Nov 2019 15:16:58 +0100 (CET)
2 Mon, 4 Nov 2019 08:03:13 +0000 (UTC)
3 Mon, 4 Nov 2019 12:05:54 +0100
4 Thu, 17 Oct 2019 23:19:41 +0100 (GMT+01:00)