Question

我有一个包含100多列和50万行的数据集。对于列Z，缺少某些值。我将首先按2列(A,B)对数据进行分组，然后对于每个组，我得到中位数（跳过那些nans），然后我想用Z中的nans填充那些中位数。相应的小组。

我可以

df.groupby(["A","B"]).Z.median()

但它在某些组中也有nans并且我不确定如何在Z中按组中位数真正填充那些nans ...

Answer 1

尝试：

df.groupby(["A","B"]).Z.apply(lambda x: x.fillna(x.median()))