考虑数据框:
df = pd.DataFrame({
"a": [None, None, None, None, 1, 2, -1, 0, 1],
"b": [5, 4, 6, 7, None, None, None, None, None]
})
>> a b
0 NaN 5.0
1 NaN 4.0
2 NaN 6.0
3 NaN 7.0
4 1.0 NaN
5 2.0 NaN
6 -1.0 NaN
7 0.0 NaN
8 1.0 NaN
对于 b 中的每个缺失值,我想取前4个值的平均值加上 a 中具有相同索引的值。例如,7点之后:
4: (5 + 4 + 6 + 7) / 4 + 1 = 6.5
5: (6.5 + 4 + 6 + 7) / 4 + 2 = 7.88
...
结果数据框应为:
>> a b
0 NaN 5.00
1 NaN 4.00
2 NaN 6.00
3 NaN 7.00
4 1.0 6.50
5 2.0 7.88
6 -1.0 5.84
7 0.0 6.80
8 1.0 7.76
如何实现?
答案 0 :(得分:2)
此处使用for循环,熊猫不是按行排列的,它们不能将以前的计算值用于将来的计算。(向量化)
l=[]
for x ,y in zip(*df.values.T.tolist()):
if len(l)<4:
l.append(y)
else:
l.append(sum(l[-4:])/4+x)
l
Out[188]: [5.0, 4.0, 6.0, 7.0, 6.5, 7.875, 5.84375, 6.8046875, 7.755859375]
df.b=l
df
Out[190]:
a b
0 NaN 5.000000
1 NaN 4.000000
2 NaN 6.000000
3 NaN 7.000000
4 1.0 6.500000
5 2.0 7.875000
6 -1.0 5.843750
7 0.0 6.804688
8 1.0 7.755859