我有一个拥有100,000多行的日期时间索引数据框对象。我想知道是否有一种方便的方法使用pandas来获取多个日期范围内的数据帧的子集。
例如,假设我们有两个日期范围:
(datetime.datetime(2016,6,27,0,0,0), datetime.datetime(2016,6,27,5,0,0)
和
(datetime.datetime(2016,6,27,15,0,0), datetime.datetime(2016,6,27,23,59,59)
让我们说我们想要获取第一个日期范围或第二个日期范围内的数据框对象的所有行,其中dataframe对象在2016-06-27 00:00:00之间每秒都有行到2016-06-27 23:59:59大熊猫有一种简单的方法可以做到这一点吗?
感谢您的帮助!
答案 0 :(得分:4)
有two main ways来按日期将DatetimeIndex切分为DataFrame。
切片:df.loc[start:end]
。如果有多个日期范围,则单个
切片可以与pd.concat
连接。
通过布尔选择掩码:df.loc[mask]
使用pd.concat和切片:
import numpy as np
import pandas as pd
np.random.seed(2016)
N = 10**2
df = pd.DataFrame(np.random.randint(10, size=(N, 2)),
index=pd.date_range('2016-6-27', periods=N, freq='45T'))
result = pd.concat([df.loc['2016-6-27':'2016-6-27 5:00'],
df.loc['2016-6-27 15:00':'2016-6-27 23:59:59']])
产量
0 1
2016-06-27 00:00:00 0 2
2016-06-27 00:45:00 5 5
2016-06-27 01:30:00 9 6
2016-06-27 02:15:00 8 4
2016-06-27 03:00:00 5 0
2016-06-27 03:45:00 4 8
2016-06-27 04:30:00 7 0
2016-06-27 15:00:00 2 5
2016-06-27 15:45:00 6 7
2016-06-27 16:30:00 6 8
2016-06-27 17:15:00 5 1
2016-06-27 18:00:00 2 9
2016-06-27 18:45:00 9 1
2016-06-27 19:30:00 9 7
2016-06-27 20:15:00 3 6
2016-06-27 21:00:00 3 5
2016-06-27 21:45:00 0 8
2016-06-27 22:30:00 5 6
2016-06-27 23:15:00 0 8
请注意,与Python中使用的大多数切片语法不同,
df.loc['2016-6-27':'2016-6-27 5:00']
两端都包含 - 切片定义了一个封闭的间隔,不是一个 半开的间隔。
使用布尔选择掩码:
mask = (((df.index >= '2016-6-27') & (df.index <= '2016-6-27 5:00'))
| ((df.index >= '2016-6-27 15:00') & (df.index < '2016-6-28')))
result2 = df.loc[mask]
assert result.equals(result2)
答案 1 :(得分:2)
我觉得最好的选择是使用直接检查而不是使用loc函数:
df = df[((df.index >= '2016-6-27') & (df.index <= '2016-6-27 5:00'))
| ((df.index >= '2016-6-27 15:00') & (df.index < '2016-6-28'))]
它对我有用。
带切片的loc函数的主要问题是限制应该存在于实际值中,否则会导致KeyError。