使用scipy进行2d插值/平滑线时如何提高性能?

时间:2017-04-26 21:26:06

标签: python python-2.7 numpy scipy scientific-computing

我有一个中等大小的数据集,即两列矩阵中的20000 x 2浮点数。第一列是x列,它表示沿轨迹到原点的距离,另一列是y列,表示对该对象所做的工作。该数据集是从实验室操作中获得的,因此它相当随意。我已经把这个结构变成了numpy数组。我想在具有平滑曲线的图中绘制y vs x。所以我希望以下代码可以帮助我:

x_smooth = np.linspace(x.min(),x.max(), 20000)
y_smooth = spline(x, y, x_smooth)
plt.plot(x_smooth, y_smooth)
plt.show()

然而,当我的程序执行y_smooth = spline(x,y,x_smooth)行时,需要很长时间,比如10分钟,甚至有时它会让我的记忆耗尽,我必须重启我的机器。我试图将块数减少到200和2000,但没有一个工作。然后我在这里检查了官方的scipy参考:scipy.interpolate.spline。他们说spline在0.19版中被弃用,但我没有使用新版本。如果spline在相当多的时间内被弃用,那么现在如何使用等效的Bspline?如果spline仍然有效,那么导致性能下降的原因

我的部分数据可能如下所示:

13.202      0.0
13.234738      -0.051354643759
12.999116      0.144464320836
12.86252      0.07396528119
13.1157      0.10019738758
13.357109      -0.30288563381
13.234004      -0.045792536285
12.836279      0.0362257166275
12.851597      0.0542649286915
13.110691      0.105297378401
13.220619      -0.0182963209185
13.092143      0.116647353635
12.545676      -0.641112204849
12.728248      -0.147460703493
12.874176      0.0755861585235
12.746764      -0.111583725833
13.024995      0.148079528382
13.106033      0.119481137144
13.327233      -0.197666132456
13.142423      0.0901867159545

3 个答案:

答案 0 :(得分:3)

这里有几个问题。首先,您尝试使用的样条拟合是全局的。这意味着您在构造时解决了大小为20000的线性方程组(尽管评估对数据集大小非常敏感)。这解释了样条构造缓慢的原因。

此外,

scipy.interpolate.spline用完整矩阵进行线性代数 - 因此记忆消耗。这正是为什么它被scipy 0.19.0弃用的原因。

建议的替代品,scipy 0.19.0,BSpline / make_interp_spline组合:

>>> spl = make_interp_spline(x, y, k=3)    # returns a BSpline object
>>> y_new = spl(x_new)                     # evaluate 

注意它是不是 BSpline(x, y, k):BSpline对象对数据或拟合或插值一无所知。

如果您使用的是较旧的scipy版本,则可以选择:

    立方样条
  • CubicSpline(x, y)
  • splrep(x, y, s=0) / splev combo。

但是,您可能想要考虑是否确实需要两次连续可微分的功能。如果只有一次可微函数对于您的目的而言足够平滑,那么您可以使用局部样条插值,例如, Akima1DInterpolatorPchipInterpolator

In [1]: import numpy as np

In [2]: from scipy.interpolate import pchip, splmake

In [3]: x = np.arange(1000)

In [4]: y = x**2

In [5]: %timeit pchip(x, y)
10 loops, best of 3: 58.9 ms per loop

In [6]: %timeit splmake(x, y)    
1 loop, best of 3: 5.01 s per loop

此处splmakespline在幕后使用的内容,而且它也已被弃用。

答案 1 :(得分:1)

SciPy中的大多数插值方法都是函数生成,即它们返回的函数可以在 x 数据上执行。例如,使用CubicSpline方法,将所有点与逐点三次样条曲线连接起来

from scipy.interpolate import CubicSpline

spline = CubicSpline(x, y)
y_smooth = spline(x_smooth)

根据您的描述,我认为您正确地想要使用BSpline。为此,请遵循上述模式,即

from scipy.interpolate import BSpline

order = 2 # smoothness order
spline = BSpline(x, y, order)
y_smooth = spline(x_smooth)

由于您拥有大量数据,因此可能非常嘈杂。我建议使用更大的样条线顺序,它与用于插值的节数有关。

在这两种情况下,您的结,即 x y 都应该排序。这些是一维插值(因为您仅使用x_smooth作为输入)。您可以使用np.argsort对其进行排序。简而言之:

from scipy.interpolate import BSpline

sort_idx = np.argsort(x)
x_sorted = x[sort_idx]
y_sorted = y[sort_idx]

order = 20 # smoothness order
spline = BSpline(x_sorted, y_sorted, order)
y_smooth = spline(x_smooth)

plt.plot(x_sorted, y_sorted, '.')
plt.plot(x_smooth, y_smooth, '-')
plt.show()

答案 2 :(得分:0)

我的问题可以概括为当数据点随机化时如何平滑地绘制2d图。由于您只处理两列数据,如果您按自变量对数据进行排序,至少您的数据点将按顺序连接,这就是matplotlib连接数据点的方式。

@Dawid Laszuk提供了一个按自变量排序数据的解决方案,我将在这里展示:

plotting_columns = []
    for i in range(len(x)):
        plotting_columns.append(np.array([x[i],y[i]]))
    plotting_columns.sort(key=lambda pair : pair[0])
    plotting_columns = np.array(plotting_columns)
过滤条件的传统sort()也可以在这里有效地进行排序工作。

但这只是你迈出的第一步。以下步骤也不难,为了平滑图形,您还希望将自变量保持线性升序,步长间隔相同,所以

x_smooth = np.linspace(x.min(), x.max(), num_steps)

足以完成这项工作。通常,如果您有足够的数据点,例如,超过10000点(正确性和准确性不是人类可验证的),您只想绘制重要点以显示趋势,然后只有平滑x就足够了。所以你可以简单地plt.plot(x_smooth,y)

您会注意到x_smooth会生成许多x个值,这些值不具有相应的y值。如果要保持正确性,则需要使用线拟合功能。正如@ ev-br在他的回答中所说,spline函数的目的是昂贵的。因此,您可能想要做一些更简单的技巧。我在不使用这些功能的情况下平滑了我的图形。你有一些简单的步骤。

首先,对您的值进行舍入,以便您的数据在较小的时间间隔内不会变化太大。 (您可以跳过此步骤) 在构建plotting_columns时,您可以更改一行:

plotting_columns.append(np.around(np.array(x[i],y[i]), decimal=4))

完成此操作后,您可以通过选择接近x_smooth值的点来过滤掉您不想绘制的点:

new_plots = []
for i in range(len(x_smooth)):
    if plotting_columns[:,0][i] >= x_smooth[i] - error and plotting_columns[:,0][i]< x_smooth[i] + error:
        new_plots.append(plotting_columns[i])
    else:
        # Remove all points between the interval #

这就是我解决问题的方法。