我有一个包含多个列的DataFrame df
。 df
中的部分值为NaN
。我想用有效值替换每个NaN
,通过从给定列中的其他值中随机抽样来选择。
例如,如果:
df[work] = [4, 7, NaN, 4]
我希望将df[work][2]
替换为4 2/3的时间和7 1/3的时间。
这是我的尝试:
def resample_fillna(df):
for col in df.columns:
# get series consisting of non-NaN values
valid_series = df[col].dropna()
nan_indices = np.argwhere(np.isnan(df[col]))
for nan_index in nan_indices:
df[col][nan_index] = valid_series.sample(n=1)
我认为那里有更好,更多的Pythonic方式。有什么想法吗?
谢谢!
答案 0 :(得分:5)
让我们创建一些假数据,然后使用来自同一列的随机其他值填充缺失值。
np.random.seed(123)
data = np.random.randint(0, 10, (10,5))
df = pd.DataFrame(data, columns=list('abcde'))
df = df.where(df > 2)
df
a b c d e
0 NaN NaN 6.0 NaN 3.0
1 9.0 6.0 NaN NaN NaN
2 9.0 NaN NaN 9.0 3.0
3 4.0 NaN NaN 4.0 NaN
4 7.0 3.0 NaN 4.0 7.0
5 NaN 4.0 8.0 NaN 7.0
6 9.0 3.0 4.0 6.0 NaN
7 5.0 6.0 NaN NaN 8.0
8 3.0 5.0 NaN NaN 6.0
9 NaN 4.0 4.0 6.0 3.0
现在,我们可以使用apply
遍历每个列,并使用非缺失值替换样本。
df.apply(lambda x: np.where(x.isnull(), x.dropna().sample(len(x), replace=True), x))
a b c d e
0 5.0 3.0 6.0 6.0 3.0
1 9.0 6.0 4.0 9.0 7.0
2 9.0 5.0 8.0 9.0 3.0
3 4.0 3.0 8.0 4.0 6.0
4 7.0 3.0 4.0 4.0 7.0
5 9.0 4.0 8.0 6.0 7.0
6 9.0 3.0 4.0 6.0 3.0
7 5.0 6.0 4.0 4.0 8.0
8 3.0 5.0 4.0 4.0 6.0
9 9.0 4.0 4.0 6.0 3.0