在屏蔽数组的有效值上调用函数

时间:2017-07-27 21:15:28

标签: python numpy

我有两个numpy蒙面数组:

import test from 'tape';
import dom from 'dom';

// To create global dom
dom();

如果我尝试将>>> x masked_array(data = [1 2 -- 4], mask = [False False True False], fill_value = 999999) >>> y masked_array(data = [4 -- 0 4], mask = [False True False False], fill_value = 999999) 除以x,则当其中一个操作数被屏蔽时,实际上不执行除法运算,因此我没有得到被零除错误。 / p>

y

如果我定义自己的除法函数>>> x/y masked_array(data = [0.25 -- -- 1.0], mask = [False True True False], fill_value = 1e+20)

,这甚至可以工作
div

但是,如果我用>>> def div(a,b): return a/b >>> div(x, y) masked_array(data = [0.25 -- -- 1.0], mask = [False True True False], fill_value = 1e+20) 包装我的函数,则会在屏蔽值上调用该函数,并且出现错误:

vectorize

有没有办法可以使用数组参数调用函数,并且只有在所有参数都被取消屏蔽时才执行该函数?

1 个答案:

答案 0 :(得分:9)

问题

直接调用该函数是因为,当您致电div(x,y)时,div的参数ab成为MaskedArrays x并且ya/b生成的代码为x.__div__(y)(或__truediv__)。

现在,由于x是一个MaskedArray,因此它具有根据其规则对另一个MaskedArray执行除法的智能。

但是,当你对它进行矢量化时,你的div函数在这种情况下不会看到任何MaskedArrays,只有scalars,几个int。因此,当它在第三个项目中尝试a/b时,它将是'某些东西'零,你得到错误。

MaskedArray的实现似乎是基于为MaskedArrays重新实现Numpy的大部分内容。例如,请参阅您同时拥有numpy.lognumpy.ma.log。比较在包含负值的MaskedArray上运行它们。两者实际上都返回了一个正确的MaskedArray,但是朴素的numpy版本也会输出一些关于除以零的抱怨:

In [116]: x = masked_array(data = [-1, 2, 0, 4],
     ...:              mask = [False, False,  True, False],
     ...:        fill_value = 999999)

In [117]: numpy.log(x)
/usr/bin/ipython:1: RuntimeWarning: divide by zero encountered in log
  #!/usr/bin/python3
/usr/bin/ipython:1: RuntimeWarning: invalid value encountered in log
  #!/usr/bin/python3
Out[117]: 
masked_array(data = [-- 0.6931471805599453 -- 1.3862943611198906],
             mask = [ True False  True False],
       fill_value = 999999)

In [118]: numpy.ma.log(x)
Out[118]: 
masked_array(data = [-- 0.6931471805599453 -- 1.3862943611198906],
             mask = [ True False  True False],
       fill_value = 999999)

如果您在普通列表上运行numpy.log版本,它将返回naninf以获取无效值,而不是像您ZeroDivisionError那样抛出错误得到。

In [138]: a = [1,-1,0]

In [139]: numpy.log(a)
/usr/bin/ipython:1: RuntimeWarning: divide by zero encountered in log
  #!/usr/bin/python3
/usr/bin/ipython:1: RuntimeWarning: invalid value encountered in log
  #!/usr/bin/python3
Out[139]: array([  0.,  nan, -inf])

更简单的解决方案

有了这个,我看到两种选择:首先,对于你列出的更简单的情况,你可以用div的情况下的no-op:1替换坏值(注意数据与你的略有不同,因为你没有将其标记为蒙版):

x = masked_array(data = [1, 2, 0, 4],
             mask = [False, False,  True, False],
       fill_value = 999999)
y = masked_array(data = [4, 0, 0, 4],
             mask = [False,  True, True, False],
       fill_value = 999999)
In [153]: numpy.vectorize(div)(x,y.filled(1))
Out[153]: 
masked_array(data = [0.25 2.0 -- 1.0],
             mask = [False False  True False],
       fill_value = 999999)

这种方法的问题是填充的值在结果中被列为非掩码,这可能不是你想要的。

更好的解决方案

现在,div可能仅仅是一个例子,您可能想要更复杂的行为,而这些行为没有“无操作”。论点。在这种情况下,您可以像Numpy那样为log执行操作,并避免抛出异常,而是返回特定值。在这种情况下,numpy.ma.maskeddiv的实施变为:

In [154]: def div(a,b):
     ...:     try:
     ...:         return a/b
     ...:     except Exception as e:
     ...:         warnings.warn (str(e))
     ...:         return numpy.ma.masked
     ...:     
     ...:         

In [155]: numpy.vectorize(div)(x,y)
/usr/bin/ipython:5: UserWarning: division by zero
  start_ipython()
/usr/lib/python3.6/site-packages/numpy/lib/function_base.py:2813:     UserWarning: Warning: converting a masked element to nan.
  res = array(outputs, copy=False, subok=True, dtype=otypes[0])
Out[155]: 
masked_array(data = [0.25 -- -- 1.0],
             mask = [False  True  True False],
       fill_value = 999999)

更通用的解决方案

但也许你已经有了这个功能而且不想改变它,或者它是第三方。在这种情况下,您可以使用更高阶的函数:

In [164]: >>> def div(a,b):
     ...:     return a/b
     ...: 

In [165]: def masked_instead_of_error (f):
     ...:     def wrapper (*args, **kwargs):
     ...:         try:
     ...:             return f(*args, **kwargs)
     ...:         except:
     ...:             return numpy.ma.masked
     ...:     return wrapper
     ...:        

In [166]: numpy.vectorize(masked_instead_of_error(div))(x,y)
/usr/lib/python3.6/site-packages/numpy/lib/function_base.py:2813:             UserWarning: Warning: converting a masked element to nan.
  res = array(outputs, copy=False, subok=True, dtype=otypes[0])
Out[166]: 
masked_array(data = [0.25 -- -- 1.0],
             mask = [False  True  True False],
       fill_value = 999999)

在上面的实现中,使用警告可能是也可能不是一个好主意。您可能还希望限制返回numpy.ma.masked时要捕获的例外类型。

另请注意,masked_instead_of_error已准备好用作函数的装饰器,因此您不必每次都使用它。