如何使用pandas替换具有不同随机值的列中的每个NaN?

时间:2017-10-03 11:02:20

标签: python pandas random normal-distribution

我最近一直在玩大熊猫,现在我尝试用不同的正态分布随机值替换数据帧内的NaN值。

假设我有这个没有标题的CSV文件

      0
0    343
1    483
2    101
3    NaN
4    NaN
5    NaN

我的预期结果应该是这样的

       0
0     343
1     483
2     101
3     randomnumber1
4     randomnumber2
5     randomnumber3

但我得到了以下内容:

       0
0     343
1     483
2     101
3     randomnumber1
4     randomnumber1
5     randomnumber1    # all NaN filled with same number

到目前为止我的代码

import numpy as np
import pandas as pd

df = pd.read_csv("testfile.csv", header=None)
mu, sigma = df.mean(), df.std()
norm_dist = np.random.normal(mu, sigma, 1)
for i in norm_dist:
    print df.fillna(i)

我想从数据帧中获取NaN行的数量,并将np.random.normal(mu, sigma, 1)中的数字1替换为NaN行的总数,以便每个NaN可能具有不同的值。

但我想问一下是否有其他简单的方法可以做到这一点?

感谢您的帮助和建议。

3 个答案:

答案 0 :(得分:4)

这是使用底层数组数据的一种方法 -

def fillNaN_with_unifrand(df):
    a = df.values
    m = np.isnan(a) # mask of NaNs
    mu, sigma = df.mean(), df.std()
    a[m] = np.random.normal(mu, sigma, size=m.sum())
    return df

本质上,我们使用size param with np.random.normal一次性生成所有随机数和NaN的计数,并再次使用NaN的掩码分配它们。

示例运行 -

In [435]: df
Out[435]: 
       0
0  343.0
1  483.0
2  101.0
3    NaN
4    NaN
5    NaN

In [436]: fillNaN_with_unifrand(df)
Out[436]: 
            0
0  343.000000
1  483.000000
2  101.000000
3  138.586483
4  223.454469
5  204.464514

答案 1 :(得分:1)

我认为你需要:

{{1}}

答案 2 :(得分:1)

在pandas DataFrame列中输入随机值代替缺失值很简单。

mean = df['column'].mean()
std = df['column'].std()

def fill_missing_from_Gaussian(column_val):
    if np.isnan(column_val) == True: 
        column_val = np.random.normal(mean, std, 1)
    else:
         column_val = column_val
return column_val

现在只需将上述方法应用于缺少值的列。

df['column'] = df['column'].apply(fill_missing_from_Gaussian)