Question

我需要快速转换ISO 8601日期时间字符串 - 字符串中没有时区，但已知在美国/太平洋时区 - 变成一个numpy datetime64对象。

如果我的机器在美国/太平洋时间，我可以简单地运行numpy.datetime64(s)。但是，这假设没有时区的字符串在本地时区。此外，我无法轻松指定ISO 8601格式的美国/太平洋时区，因为它有时会-0800，有时会-0700，具体取决于夏令时。

到目前为止，我所拥有的最快解决方案是numpy.datetime64(pandas.Timestamp(s).tz_localize(tz='US/Pacific', ambiguous=True))。这需要70μs在我的机器上。如果我能够将此速度提高至少一个数量级（本地时间numpy.datetime64(s)需要4μs但如上所述不正确），那将是一件好事。这可能吗？

Answer 1

首先请注意，没有偏移一些本地时间，因此他们的日期时间字符串含糊不清。例如，ISO 8601日期时间字符串

2000-10-29T01:00:00-07:00
2000-10-29T01:00:00-08:00

当移除偏移时，两者都映射到相同的字符串2000-10-29T01:00:00。

因此，可能无法始终重建一个独特的时区感知来自没有偏移的日期时间字符串的日期时间。

然而，我们可以在这些暧昧中做出选择情况并接受并非所有不明确的日期都会被正确转换。

如果您使用的是Unix，则可以使用time.tzset来更改进程的本地时区：

import os
import time
os.environ['TZ'] = tz
time.tzset()

然后，您可以使用

将日期时间字符串转换为NumPy datetime64＆＃39; s

def using_tzset(date_strings, tz):
    os.environ['TZ'] = tz
    time.tzset()
    return np.array(date_strings, dtype='datetime64[ns]')

但请注意，using_tzset并不总是与您建议的方法产生相同的值：

import os
import time
import numpy as np
import pandas as pd

tz = 'US/Pacific'
N = 10**5
dates = pd.date_range('2000-1-1', periods=N, freq='H', tz=tz)
date_strings_tz = dates.format(formatter=lambda x: x.isoformat())
date_strings = [d.rsplit('-', 1)[0] for d in date_strings_tz]

def orig(date_strings, tz):
    return [np.datetime64(pd.Timestamp(s, tz=tz)) for s in date_strings]

def using_tzset(date_strings, tz):
    os.environ['TZ'] = tz
    time.tzset()
    return np.array(date_strings, dtype='datetime64[ns]')

npdates = dates.asi8.view('datetime64[ns]')
x = np.array(orig(date_strings, tz))
y = using_tzset(date_strings, tz)
df = pd.DataFrame({'dates': npdates, 'str': date_strings_tz, 'orig': x, 'using_tzset': y})

这表示原始方法orig无法将原始日期恢复172次：

print((df['dates'] != df['orig']).sum())
172

而using_tzset失败了11次：

print((df['dates'] != df['using_tzset']).sum())
11

但请注意，using_tzset失败的11倍是由于DST导致本地日期时间不明确所致。

这显示了一些差异：

mask = df['dates'] != df['using_tzset']
idx = np.where(mask.shift(1) | mask)[0]
print(df[['dates', 'str', 'using_tzset']].iloc[idx]).head(6)

#                     dates                        str         using_tzset
# 7248  2000-10-29 08:00:00  2000-10-29T01:00:00-07:00 2000-10-29 08:00:00
# 7249  2000-10-29 09:00:00  2000-10-29T01:00:00-08:00 2000-10-29 08:00:00
# 15984 2001-10-28 08:00:00  2001-10-28T01:00:00-07:00 2001-10-28 08:00:00
# 15985 2001-10-28 09:00:00  2001-10-28T01:00:00-08:00 2001-10-28 08:00:00
# 24720 2002-10-27 08:00:00  2002-10-27T01:00:00-07:00 2002-10-27 08:00:00
# 24721 2002-10-27 09:00:00  2002-10-27T01:00:00-08:00 2002-10-27 08:00:00

正如您所见，str列中的日期字符串出现差异在删除偏移量时变得模糊不清。

因此，using_tzset似乎会产生正确的结果，直到不明确的日期时间。

以下是比较orig和using_tzset的时间基准：

In [95]: %timeit orig(date_strings, tz)
1 loops, best of 3: 5.43 s per loop

In [96]: %timeit using_tzset(date_strings, tz)
10 loops, best of 3: 41.7 ms per loop

当N = 10 ** 5时，using_tzset比orig快100倍。

在非本地时区快速解析Python日期时间，调整夏令时

1 个答案: