在Numpys Masked数组中获取非掩码值

时间:2017-06-21 23:31:46

标签: python performance numpy data-science masked-array

我正在尝试从netCDF4文件中提取数据。它们包含“MaskedArrays”,它们是Numpy库的一部分。

我的数据包含:纬度经度(在不同文件中分开)。 另外还有一个掩码,显示哪些纬度/经度因各种原因无效(无测量或其他原因)。

我的数据如下(对于屏蔽数据):

masked_array(
    data =
     [[[-- -- -- ..., -- -- --]
        ..., 
       [-- -- -- ..., -- -- --]]],
    mask =
     [[[ True  True  True ...,  True  True  True]
        ...,
       [ True  True  True ...,  True  True  True]]],
    fill_value = 32767)

我正在搜索一个numpy方法(或类似方法),它只能提取这些未被屏蔽的值。理想情况下,只需从数据集中删除所有无效条目。 我找到了.compressed,但它给了一个一维数组。从第三个维度来看,这是一个非常缺乏的信息,我不知道这些值是什么。

此外,我尝试了nonzero = the_array['one of the values'][0].nonzero()。 这给了我一个带有lat / lon值的双数组,但在那之后我还是要访问这些 - 这很慢。不幸的是,在知道如何访问所有这些日期后,我需要在30 * 6个文件上执行此操作,每个文件具有~1500×700×365数据点:D。

all_days = [(x, rhstmax['stuff'][x][24][1288]) for x in range(366)]
# represents just for lat:24,lon:1288 all days. First 20:
all_days[:20] =
    [(0, 15.799999),
     (1, 16.199999),
     (2, 17.4),
     (3, 13.2),
     (4, 10.8),
     (5, 11.3),
     (6, 15.299999),
     (7, 16.299999),
     (8, 14.099999),
     (9, 10.8),
     (10, 9.5),
     (11, 9.0999994),
     (12, 11.9),
     (13, 9.1999998),
     (14, 31.0),
     (15, 49.0),
     (16, 8.6999998),
     (17, 10.0),
     (18, 44.099998),
     (19, 30.699999)]
# ... takes forever :(

1 个答案:

答案 0 :(得分:1)

要在Python中获取非掩码数据,您可以使用.mask工具

假设您有以下数据集:

data = [[0.0 1.0 -- --]
       [2.0 3.0 -- --]]

您可以在获取False命令data.mask的所有索引的同时获取非掩码数据。

data = data[data.mask == False]

请注意,这将为您提供所有输入的一维数组

data -> [0.0 1.0 2.0 3.0]