我的pandas数据框中有两个日期时间列df
:
d = pd.DatetimeIndex(start='1700-01-01', end='2017-01-01', freq='1D')
df = pd.DataFrame({'date1':d})
df['date2'] = df['date1'].sample(frac=1).values
我使用以下方法计算这些日期之间的周数:
df['weeks'] = (df['date1'].subtract(df['date2'])).dt.days/7
在一个拥有1,100万行的数据框架上,这需要的时间比我预期的要长 - 大约10分钟。
有更快的方法吗?
答案 0 :(得分:2)
使用numpy
- 将这两列转换为array
,减去并最后转换为天数:
df['weeks'] = (df['date1'].values- df['date2'].values) / np.timedelta64(1, 'D') / 7
样品:
d = pd.DatetimeIndex(start='1700-01-01', end='2017-01-01', freq='1D')
df = pd.DataFrame({'date1':d})
df['date2'] = df['date1'].sample(frac=1).values
#print (df)
In [292]: %timeit df['weeks'] = (df['date1'].subtract(df['date2'])).dt.days / 7
1 loop, best of 3: 942 ms per loop
In [293]: %timeit df['weeks'] = (df['date1'].values- df['date2'].values) / np.timedelta64(1, 'D') / 7
1000 loops, best of 3: 1.89 ms per loop