我有一个加权移动平均函数,它通过使用高斯加权机制在每个点的左侧和右侧平均3 *宽度值来平滑曲线。我只担心平滑由[开始,结束]限制的区域。以下代码有效,但问题是大型数组的运行时。
import numpy as np
def weighted_moving_average(x, y, start, end, width = 3):
def gaussian(x, a, m, s):
return a*exp(-(x-m)**2/(2*s**2))
cut = (x>=start-3*width)*(x<=end+3*width)
x, y = x[cut], y[cut]
x_avg = x[(x>=start)*(x<=end)]
y_avg = np.zeros(len(x_avg))
bin_vals = np.arange(-3*width,3*width+1)
weights = gaussian(bin_vals, 1, 0, width)
for i in range(len(x_avg)):
y_vals = y[i:i+6*width+1]
y_avg[i] = np.average(y_vals, weights = weights)
return x_avg, y_avg
根据我的理解,循环NumPy数组通常效率低下。我想知道是否有人有想法用更有运行效率的东西替换for循环。
由于
答案 0 :(得分:2)
加权窗口上的切片和求和/平均基本上对应于内核被翻转的1D卷积。现在,对于1D
convolution,NumPy在np.convolve
中有一个非常有效的实现,可以用来摆脱循环并给我们y_avg
。因此,我们将有一个像这样的矢量化实现 -
y_sums = np.convolve(y,weights[::-1],'valid')
y_avg = np.true_divide(y_sums,weights.sum())
答案 1 :(得分:0)
循环遍历大型数组的主要问题是大型数组的内存分配可能很昂贵,并且必须在循环开始之前初始化整个内容。
在这个特殊情况下,我会选择迪瓦卡所说的话。
通常,如果您发现自己处于真正需要迭代大型集合的环境中,请使用 iterators 而不是数组。对于像这样的相对简单的情况,只需将range
替换为xrange
(请参阅https://docs.python.org/2/library/functions.html#xrange)。