改善加权移动平均滤波函数的运行时间?

时间:2016-07-20 21:59:56

标签: python numpy runtime ipython vectorization

我有一个加权移动平均函数,它通过使用高斯加权机制在每个点的左侧和右侧平均3 *宽度值来平滑曲线。我只担心平滑由[开始,结束]限制的区域。以下代码有效,但问题是大型数组的运行时。

import numpy as np
def weighted_moving_average(x, y, start, end, width = 3):
    def gaussian(x, a, m, s):
        return a*exp(-(x-m)**2/(2*s**2))
    cut = (x>=start-3*width)*(x<=end+3*width)
    x, y = x[cut], y[cut]
    x_avg = x[(x>=start)*(x<=end)]
    y_avg = np.zeros(len(x_avg))
    bin_vals = np.arange(-3*width,3*width+1)
    weights = gaussian(bin_vals, 1, 0, width)
    for i in range(len(x_avg)):
        y_vals = y[i:i+6*width+1]
        y_avg[i] = np.average(y_vals, weights = weights)
    return x_avg, y_avg

根据我的理解,循环NumPy数组通常效率低下。我想知道是否有人有想法用更有运行效率的东西替换for循环。

由于

2 个答案:

答案 0 :(得分:2)

加权窗口上的切片和求和/平均基本上对应于内核被翻转的1D卷积。现在,对于1D convolution,NumPy在np.convolve中有一个非常有效的实现,可以用来摆脱循环并给我们y_avg。因此,我们将有一个像这样的矢量化实现 -

y_sums = np.convolve(y,weights[::-1],'valid')
y_avg = np.true_divide(y_sums,weights.sum())

答案 1 :(得分:0)

循环遍历大型数组的主要问题是大型数组的内存分配可能很昂贵,并且必须在循环开始之前初始化整个内容。

在这个特殊情况下,我会选择迪瓦卡所说的话。

通常,如果您发现自己处于真正需要迭代大型集合的环境中,请使用 iterators 而不是数组。对于像这样的相对简单的情况,只需将range替换为xrange(请参阅https://docs.python.org/2/library/functions.html#xrange)。