我正在针对同等大小的时间列绘制大量数据的几列(通过numpy.genfromtxt)。丢失的数据通常被称为nan,-999,-9999等。但是我无法弄清楚如何从数组中删除多个值。这就是我目前所拥有的:
for cur_col in range(start_col, total_col):
# Generate what is to be graphed by removing nan values
data_mask = (file_data[:, cur_col] != nan_values)
y_data = file_data[:, cur_col][data_mask]
x_data = file_data[:, time_col][data_mask]
在此之后,我使用matplotlib为每列创建适当的数字。如果nan_values是一个整数,这可以正常工作,但我希望使用一个列表。
编辑:这是一个有效的例子。
import numpy as np
file_data = np.arange(12.0).reshape((4,3))
file_data[1,1] = np.nan
file_data[2,2] = -999
nan_values = -999
for cur_col in range(1,3):
# Generate what is to be graphed by removing nan values
data_mask = (file_data[:, cur_col] != nan_values)
y_data = file_data[:, cur_col][data_mask]
x_data = file_data[:, 0][data_mask]
print 'y: ' + str(y_data)
print 'x: ' + str(x_data)
print file_data
>>> y: [ 1. nan 7. 10.]
x: [ 0. 3. 6. 9.]
y: [ 2. 5. 11.]
x: [ 0. 3. 9.]
[[ 0. 1. 2.]
[ 3. nan 5.]
[ 6. 7. -999.]
[ 9. 10. 11.]]
如果nan_values = ['nan', - 999]这是我想要完成的事情,这将不起作用。
答案 0 :(得分:4)
我建议像masked arrays这样使用:
>>> a = np.arange(12.0).reshape((4,3))
>>> a[1,1] = np.nan
>>> a[2,2] = -999
>>> a
array([[ 0., 1., 2.],
[ 3., nan, 5.],
[ 6., 7., -999.],
[ 9., 10., 11.]])
>>> m = np.ma.array(a,mask=(~np.isfinite(a) | (a == -999)))
>>> m
masked_array(data =
[[0.0 1.0 2.0]
[3.0 -- 5.0]
[6.0 7.0 --]
[9.0 10.0 11.0]],
mask =
[[False False False]
[False True False]
[False False True]
[False False False]],
fill_value = 1e+20)
答案 1 :(得分:2)
我会尝试像(伪代码):
nan_values = [...]
for cur_col in range(start_col, total_col):
# Generate what is to be graphed by removing nan values
y_data = [file_data[i,cur_col] for i in range(len(file_data)) if not(file_data[i,cur_col] in nan_values)]
x_data = [file_data[i,time_col] for i in range(len(file_data)) if not(file_data[i,cur_col] in nan_values)]