是否可以用此值所属的分类类型的平均值来估算缺失值。例如,如果我有50种独特的产品,它们可以创建1000个样本,其中一个特征就是重量。我可以用产品“ a”的权重平均值估算产品“ a”的重量,而用产品“ c”的权重平均值估算产品“ c”的重量吗?
答案 0 :(得分:0)
如果您使用的是熊猫,可以尝试如下操作:
import pandas as pd
import numpy as np
df = pd.DataFrame({
"category": ["a", "a", "a", "a", "b", "b", "b", "b"],
"weight": [1.0, 1.0, np.nan, 2.0, np.nan, 3.0, 3.0, 3.0]
})
print df
df["weight"].fillna(df.groupby("category")["weight"].transform("median"), inplace=True)
print df
原始数据框:
category weight
0 a 1.0
1 a 1.0
2 a NaN
3 a 2.0
4 b NaN
5 b 3.0
6 b 3.0
7 b 3.0
结果:
category weight
0 a 1.0
1 a 1.0
2 a 1.0
3 a 2.0
4 b 3.0
5 b 3.0
6 b 3.0
7 b 3.0