我有一个像这样的数据框
ID,Time0,Sum0,Average0,Time1,Sum1,Average1
1,1520320347531.0,59.3635,18.2828,1520324772351.0,59.5031,18.4745
1,1519860442638.0,60.1159,20.3027,1519861181524.0,60.1033,20.31705
我想每隔5分钟水平插补一次。
如果数据是垂直排列的话,这段代码会完美地插入,但我不知道如何为这些行水平插值。尽管在两个不同的行中存在相同的Ids,但我想使插值独立于每一行。
df = df.set_index(['Time'])
df.index = pd.to_datetime(df.index, unit='ms')
df = (df.groupby('ID')[['Sum', 'Average']]
.resample('5min')
.mean()
.groupby(level=0)
.apply(lambda x: x.interpolate()).reset_index())
有什么建议吗?
答案 0 :(得分:1)
我有一个答案,但它有点难看,任何人对数据进行过度操作,都可以随意纠正。
首先,根据您的数据,我将值1520324772351.0
(第一行,列Time1)更改为1520321086417.0
,否则超过10分钟,并将示例更改为多个列。
根据您的数据,我首先创建一个连接的数据框,例如
df_concat = (pd.concat([df[['ID','Time0','Sum0','Average0']]
.rename(columns={'Time0':'Time','Sum0':'Sum','Average0':'Average'}),
df[['ID','Time1','Sum1','Average1']]
.rename(columns={'Time1':'Time','Sum1':'Sum','Average1':'Average'})])
.sort_index())
获取这样的数据:
ID Time Sum Average
0 1 1.520320e+12 59.3635 18.28280
0 1 1.520321e+12 59.5031 18.47450
1 1 1.519860e+12 60.1159 20.30270
1 1 1.519861e+12 60.1033 20.31705
在这里,您可以使用您的方法处理索引列中groupby的列中的数据:
df_concat_set = df_concat.reset_index().set_index(['Time'])
df_concat_set.index = pd.to_datetime(df_concat_set.index, unit='ms')
df_concat_set = (df_concat_set.groupby('index')[['Sum', 'Average']]
.resample('5min')
.mean()
.groupby(level=0)
.apply(lambda x: x.interpolate())
.reset_index())
这里有数据:
index Time Sum Average
0 0 2018-03-06 07:10:00 59.3635 18.282800
1 0 2018-03-06 07:15:00 59.4333 18.378650
2 0 2018-03-06 07:20:00 59.5031 18.474500
3 1 2018-02-28 23:25:00 60.1159 20.302700
4 1 2018-02-28 23:30:00 60.1096 20.309875
5 1 2018-02-28 23:35:00 60.1033 20.317050
为了让它恢复原状,我这样做了(在这里我确定有一个我不知道的pivot_table方法,但这种方式有效):
#first create a column with incremental number within a group of index:
df_concat_set['level_1'] = df_concat_set.groupby('index').cumcount()+1
# then set index and unstack
df_unstack = df_concat_set.set_index(['index','level_1']).unstack(level=1)
# here you have multiindex columns so change it to one level:
df_unstack.columns = [col[0]+str(col[1]-1) for col in df_unstack.columns]
# then change the order of columns (if necessary)
df_unstack = df_unstack[[ s+str(i) for i in range(len(df_unstack.columns)/3)
for s in ['Time','Sum','Average'] ]]
你的最终输出是:
Time0 Sum0 Average0 Time1 Sum1 \
index
0 2018-03-06 07:10:00 59.3635 18.2828 2018-03-06 07:15:00 59.4333
1 2018-02-28 23:25:00 60.1159 20.3027 2018-02-28 23:30:00 60.1096
Average1 Time2 Sum2 Average2
index
0 18.378650 2018-03-06 07:20:00 59.5031 18.47450
1 20.309875 2018-02-28 23:35:00 60.1033 20.31705
这是我希望你想要的。
正如我所说,这可能是过度操纵,但我找不到另一种方式。