我有一个numpy数组X,其中包含nan
个值。
X = np.array([[ 1., 2., 3.],
[ 4., nan, 54.],
[ 90., 32., nan],
[ 55., 42., 86.]])
我想用不同的随机数替换所有nan值。我可以使用np.random.randn()
轻松生成随机数。我可以使用面具来定位和计算nans。
mx = ma.masked_array(X,mask=np.isnan(X)) //locate nans
mx.mask.sum() // count nans so I know how many random values to generate
我的问题是我不知道如何快速有效地输入它们。我上面给出的例子是一个非常小的数据集,但我有一个更大的数据集。因此效率是关键。
如果我尝试
X[mx.mask] = np.random.randn() //or
X[mx.mask]=np.random.randn(mx.mask.sum())
我用相同的随机数替换每个nan,这不是我想要的,或者在第二个例子中我得到广播错误。
有什么建议吗?
答案 0 :(得分:3)
X[np.isnan(X)] = np.random.randn(len(X[np.isnan(X)]))
以上对我来说非常适合。 Numpy版本1.8.0。