pandas通过timeindex快速打破数据帧

时间:2014-03-09 00:46:51

标签: python datetime pandas

我有一个带时间索引的数据框。但是时间指数不是连续的。

df,微秒分辨率时间戳索引。

时间投标
2014-03-03 23:30:30.383002 1.37315
2014-03-03 23:30:30.383042 1.37318
2014-03-03 23:30:30.383067 1.37318
2014-03-03 23:30:31.174442 1.37315
2014-03-03 23:30:32.028966 1.37315
2014-03-03 23:30:32.052447 1.37315

我想检查是否有没有任何数据的分钟,所以我做了重新取样

tick_count = e.resample('1Min', how=np.size)

时间投标
2014-03-04 00:15:00 73
2014-03-04 00:16:00 298
2014-03-04 00:17:00 124
2014-03-04 00:18:00 318
2014-03-04 00:19:00 27
2014-03-04 00:20:00 0
2014-03-04 00:21:00 0
2014-03-04 00:22:00 241
2014-03-04 00:23:00 97
2014-03-04 00:24:00 52
2014-03-04 00:25:00 446
2014-03-04 00:26:00 867

所以在这里我发现两分钟没有数据,如何将原始df分成多个 df,每个人每分钟都有数据。在上面的案例中

第一个df将从00:15开始到00:19,第二个从00:22到00:26开始,等等。

谢谢!

1 个答案:

答案 0 :(得分:2)

假设时间已排序,您可以使用

df['group'] = (df['Time'].diff() > np.timedelta64(60,'s')).cumsum()

向您的DataFrame添加一个列,该列将根据它们所属的组对行进行分类。结果如下:

                 Time  Bid  group
0 2014-03-04 00:15:00   73      0
1 2014-03-04 00:16:00  298      0
2 2014-03-04 00:17:00  124      0
3 2014-03-04 00:18:00  318      0
4 2014-03-04 00:19:00   27      0
5 2014-03-04 00:22:00  241      1
6 2014-03-04 00:23:00   97      1
7 2014-03-04 00:24:00   52      1
8 2014-03-04 00:25:00  446      1
9 2014-03-04 00:26:00  867      1

这比拥有多个DataFrame更好,因为你可以对整个DataFrame应用快速numpy / pandas操作,而如果你有一个DataFrame列表,你将被迫使用Python循环来单独操作子DataFrames (假设您要在每个子DataFrame上执行相同的操作)。这样做通常总是比较慢。

通常,在子数据框架上操作的pandas方式是使用a groupby operation。例如,

>>> grouped = df.groupby(['group'])
>>> grouped['Bid'].sum()
group
0         840
1        1703
Name: Bid, dtype: int64

查找每个组中的出价总和。

但是,如果您真的希望有一个子数据框列表,可以使用

获取它
subdfs = [subdf for key, subdf in grouped]

对于那些想要重现上述结果的人,我把它放在一个名为data的文件中:

 Time  Bid
2014-03-04 00:15:00  73
2014-03-04 00:16:00  298
2014-03-04 00:17:00  124
2014-03-04 00:18:00  318
2014-03-04 00:19:00  27
2014-03-04 00:22:00  241
2014-03-04 00:23:00  97
2014-03-04 00:24:00  52
2014-03-04 00:25:00  446
2014-03-04 00:26:00  867 

然后跑

import pandas as pd
import numpy as np

df = pd.read_table('data', sep='\s{2,}', parse_dates=[0])    

print(df.dtypes)                            
# Time    datetime64[ns]  # It is important that Time has dtype datetime64[ns]
# Bid              int64
# dtype: object

df['group'] = (df['Time'].diff() > np.timedelta64(60,'s')).cumsum()
print(df)