我被熊猫困住了。我的想法是对因数表示的数据进行重新采样。例如,我观察到两只猫叫查尔斯和情人。由于动物表现行为的时间更长,因此在当前行为发生变化时进行观察。我想重新采样以获取详细数据
name;timestamp;activity
Charles;10.10.18 12:31;drinks
Charles;10.10.18 12:51;sleep
Charles;10.10.18 13:01;mouse
Valentine;10.10.18 12:31;drinks
Valentine;10.10.18 12:51;sleep
Valentine;10.10.18 13:01;purr
我想要的输出应如下所示:
name timestamp activity
Charles 10.10.18 12:31 drinks
Charles 10.10.18 12:32 drinks
Charles 10.10.18 12:33 drinks
Charles 10.10.18 12:34 drinks
Charles 10.10.18 12:35 drinks
Charles 10.10.18 12:36 drinks
Charles 10.10.18 12:37 drinks
Charles 10.10.18 12:38 drinks
Charles 10.10.18 12:39 drinks
Charles 10.10.18 12:40 drinks
Charles 10.10.18 12:41 drinks
Charles 10.10.18 12:42 drinks
Charles 10.10.18 12:43 drinks
Charles 10.10.18 12:44 drinks
Charles 10.10.18 12:45 drinks
Charles 10.10.18 12:46 drinks
Charles 10.10.18 12:47 drinks
Charles 10.10.18 12:48 drinks
Charles 10.10.18 12:49 drinks
Charles 10.10.18 12:50 drinks
Charles 10.10.18 12:51 sleeps
Charles 10.10.18 12:52 sleeps
Charles 10.10.18 12:53 sleeps
Charles 10.10.18 12:54 sleeps
Charles 10.10.18 12:55 sleeps
Charles 10.10.18 12:56 sleeps
Charles 10.10.18 12:57 sleeps
Charles 10.10.18 12:58 sleeps
Charles 10.10.18 12:59 sleeps
Charles 10.10.18 13:00 sleeps
Charles 10.10.18 13:01 mouse
Valentine 10.10.18 12:31 drinks
Valentine 10.10.18 12:32 drinks
Valentine 10.10.18 12:33 drinks
Valentine 10.10.18 12:34 drinks
Valentine 10.10.18 12:35 drinks
Valentine 10.10.18 12:36 drinks
Valentine 10.10.18 12:37 drinks
Valentine 10.10.18 12:38 drinks
Valentine 10.10.18 12:39 drinks
Valentine 10.10.18 12:40 drinks
Valentine 10.10.18 12:41 drinks
Valentine 10.10.18 12:42 drinks
Valentine 10.10.18 12:43 drinks
Valentine 10.10.18 12:44 drinks
Valentine 10.10.18 12:45 drinks
Valentine 10.10.18 12:46 drinks
Valentine 10.10.18 12:47 drinks
Valentine 10.10.18 12:48 drinks
Valentine 10.10.18 12:49 drinks
Valentine 10.10.18 12:50 drinks
Valentine 10.10.18 12:51 sleeps
Valentine 10.10.18 12:52 sleeps
Valentine 10.10.18 12:53 sleeps
Valentine 10.10.18 12:54 sleeps
Valentine 10.10.18 12:55 sleeps
Valentine 10.10.18 12:56 sleeps
Valentine 10.10.18 12:57 sleeps
Valentine 10.10.18 12:58 sleeps
Valentine 10.10.18 12:59 sleeps
Valentine 10.10.18 13:00 sleeps
Valentine 10.10.18 13:01 purr
使用
data.resample('60S').pad()
不能像熊猫所说的那样,时间戳不是唯一的。
每次设置一只猫的子集数据并没有太大帮助。
答案 0 :(得分:1)
使用pad
绝对是正确的选择。唯一需要注意的是以下内容:
groupby
就是您的朋友。reset_index
,set_index
,unstack
的某种组合,和stack
通常可用于将结果按摩成所需的形式(但是,如果您不介意输出与所需的输出略有不同,则可以跳过此部分)。这样,您可以让
df['timestamp'] = pd.to_datetime(df['timestamp'])
df.set_index('timestamp').groupby('name').resample('T').pad().activity.reset_index()
在实践中:
In [54]: df
Out[54]:
name timestamp activity
0 Charles 2018-10-10 12:31:00 drinks
1 Charles 2018-10-10 12:51:00 sleep
2 Charles 2018-10-10 13:01:00 mouse
3 Valentine 2018-10-10 12:31:00 drinks
4 Valentine 2018-10-10 12:51:00 sleep
5 Valentine 2018-10-10 13:01:00 purr
In [91]: df.set_index('timestamp').groupby('name').resample('T').pad().activity.reset_index().head()
Out[91]:
name timestamp activity
0 Charles 2018-10-10 12:31:00 drinks
1 Charles 2018-10-10 12:32:00 drinks
2 Charles 2018-10-10 12:33:00 drinks
3 Charles 2018-10-10 12:34:00 drinks
4 Charles 2018-10-10 12:35:00 drinks