加快熊猫日期计算之间的时间?

时间:2017-11-10 13:12:34

标签: python performance pandas memory-efficient

我的pandas数据框中有两个日期时间列df

d = pd.DatetimeIndex(start='1700-01-01', end='2017-01-01', freq='1D')
df = pd.DataFrame({'date1':d})
df['date2'] = df['date1'].sample(frac=1).values

我使用以下方法计算这些日期之间的周数:

df['weeks'] = (df['date1'].subtract(df['date2'])).dt.days/7

在一个拥有1,100万行的数据框架上,这需要的时间比我预期的要长 - 大约10分钟。

有更快的方法吗?

1 个答案:

答案 0 :(得分:2)

使用numpy - 将这两列转换为array,减去并最后转换为天数:

df['weeks'] = (df['date1'].values- df['date2'].values) / np.timedelta64(1, 'D') / 7

样品:

d = pd.DatetimeIndex(start='1700-01-01', end='2017-01-01', freq='1D')
df = pd.DataFrame({'date1':d})
df['date2'] = df['date1'].sample(frac=1).values
#print (df)

In [292]: %timeit df['weeks'] = (df['date1'].subtract(df['date2'])).dt.days / 7
1 loop, best of 3: 942 ms per loop

In [293]: %timeit df['weeks'] = (df['date1'].values- df['date2'].values) / np.timedelta64(1, 'D') / 7
1000 loops, best of 3: 1.89 ms per loop