如何理解外行的麻木步伐?

时间:2018-11-01 08:57:41

标签: python numpy scipy stride

我当前正在经历numpy,并且在numpy中有一个名为“ strides”的主题。我知道是什么但是它是如何工作的呢?我在网上找不到任何有用的信息。有人可以让我用外行的话理解吗?

3 个答案:

答案 0 :(得分:17)

numpy数组的实际数据存储在称为数据缓冲区的同构且连续的内存块中。有关更多信息,请参见NumPy internals。 使用(默认)row-major顺序,二维数组如下所示:

enter image description here

要将多维数组的索引i,j,k,...映射到数据缓冲区中的位置(偏移量,以字节为单位),NumPy使用 strides 的概念。 跨度是要在数组的每个方向/维度上从一项跳转到 next 项的内存中要跳过的字节数。换句话说,它是每个维度的连续项目之间的字节分隔。

例如:

>>> a = np.arange(1,10).reshape(3,3)
>>> a
array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

此2D数组具有两个方向,即轴0(在行中垂直向下运行)和轴1(在列中水平运行),每个项目的大小为:

>>> a.itemsize  # in bytes
4  

因此,从a[0, 0] -> a[0, 1](沿着第0行,从第0列到第1列,水平移动)开始,数据缓冲区中的字节步长为4。与a[0, 1] -> a[0, 2],{{ 1}}等。这意味着水平方向(第1轴)的步幅为4个字节。

但是,要从a[1, 0] -> a[1, 1]开始(沿第0列垂直移动,从第0行到第1行),您需要先遍历第0行上的所有其余项才能到达第1行,然后移至第一行以转到项目a[0, 0] -> a[1, 0],即a[1, 0]。因此,垂直方向(轴-0)的步幅数为3 * 4 = 12字节。请注意,从a[0, 0] -> a[0, 1] -> a[0, 2] -> a[1, 0]开始,通常从第i行的最后一项到第(i + 1)行的第一项,也是4个字节,因为数组a[0, 2] -> a[1, 0]按行优先顺序存储。

这就是为什么

a

这是另一个示例,显示2D数组在水平方向(轴1)>>> a.strides # (strides[0], strides[1]) (12, 4) 上的步幅不必等于项目大小(例如,具有大列顺序的数组):< / p>

strides[1]

此处>>> b = np.array([[1, 4, 7], [2, 5, 8], [3, 6, 9]]).T >>> b array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) >>> b.strides (4, 12) 是项目大小的倍数。尽管数组strides[1]与数组b相同,但是数组却不同:内部a被存储为b(因为转置不会影响数据缓冲区,而只会影响数据缓冲区交换步幅和形状),而|1|4|7|2|5|8|3|6|9|a。使他们看起来相似的是不同的进步。也就是说,|1|2|3|4|5|6|7|8|9|的字节步长为3 * 4 = 12字节,b[0, 0] -> b[0, 1]的字节步长为4字节,而b[0, 0] -> b[1, 0]的字节步长为4字节,a[0, 0] -> a[0, 1]的字节步长为12字节。

最后但并非最不重要的一点是,NumPy允许创建现有数组的视图,并可以选择修改步幅和形状,请参见stride tricks。例如:

a[0, 0] -> a[1, 0]

等效于转置数组>>> np.lib.stride_tricks.as_strided(a, shape=a.shape[::-1], strides=a.strides[::-1]) array([[1, 4, 7], [2, 5, 8], [3, 6, 9]])

让我补充一点,但无需赘述,甚至可以定义不是项目大小倍数的步幅。这是一个示例:

a

答案 1 :(得分:4)

我只是从Numpy MedKit那里学到了麻木的步伐,以补充@AndyK的出色答案。在那里,它们显示出有问题的用法,如下所示:

输入

x = np.arange(20).reshape([4, 5])
>>> x
array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

预期产量

array([[[  0,  1,  2,  3,  4],
        [  5,  6,  7,  8,  9]],

       [[  5,  6,  7,  8,  9],
        [ 10, 11, 12, 13, 14]],

       [[ 10, 11, 12, 13, 14],
        [ 15, 16, 17, 18, 19]]])

为此,我们需要了解以下术语:

形状-阵列沿每个轴的尺寸。

步幅-必须跳过的内存字节数,才能沿着特定维度前进到下一项。

>>> x.strides
(20, 4)

>>> np.int32().itemsize
4

现在,如果我们查看预期的产量

array([[[  0,  1,  2,  3,  4],
        [  5,  6,  7,  8,  9]],

       [[  5,  6,  7,  8,  9],
        [ 10, 11, 12, 13, 14]],

       [[ 10, 11, 12, 13, 14],
        [ 15, 16, 17, 18, 19]]])

我们需要操纵数组的形状和步幅。输出形状必须为(3、2、5),即3个项目,每个项目包含两行(m == 2),每行包含5个元素。

需要将步幅从(20,4)更改为(20,20,4)。新输出数组中的每一项都从新行开始,每行包含20个字节(5个元素,每个4个字节),每个元素占用4个字节(int32)。

所以:

>>> from numpy.lib import stride_tricks
>>> stride_tricks.as_strided(x, shape=(3, 2, 5),
                                strides=(20, 20, 4))
...
array([[[  0,  1,  2,  3,  4],
        [  5,  6,  7,  8,  9]],

       [[  5,  6,  7,  8,  9],
        [ 10, 11, 12, 13, 14]],

       [[ 10, 11, 12, 13, 14],
        [ 15, 16, 17, 18, 19]]])

一种替代方法是:

>>> d = dict(x.__array_interface__)
>>> d['shape'] = (3, 2, 5)
>>> s['strides'] = (20, 20, 4)

>>> class Arr:
...     __array_interface__ = d
...     base = x

>>> np.array(Arr())
array([[[  0,  1,  2,  3,  4],
        [  5,  6,  7,  8,  9]],

       [[  5,  6,  7,  8,  9],
        [ 10, 11, 12, 13, 14]],

       [[ 10, 11, 12, 13, 14],
        [ 15, 16, 17, 18, 19]]])

我经常使用此方法而不是numpy.hstacknumpy.vstack并信任我,从计算上讲它要快得多。

注意:

以这种技巧使用非常大的数组时,计算精确的 strides 并非易事。我通常会制作一个所需形状的numpy.zeroes数组,并使用array.strides获得步幅,并在函数stride_tricks.as_strided中使用它。

希望有帮助!

答案 2 :(得分:4)

我已经调整了@Rick M.提出的工作来解决我的问题,该问题是移动任意形状的numpy数组的窗口切片。这是代码:

def sliding_window_slicing(a, no_items, item_type=0):
    """This method perfoms sliding window slicing of numpy arrays

    Parameters
    ----------
    a : numpy
        An array to be slided in subarrays
    no_items : int
        Number of sliced arrays or elements in sliced arrays
    item_type: int
        Indicates if no_items is number of sliced arrays (item_type=0) or
        number of elements in sliced array (item_type=1), by default 0

    Return
    ------
    numpy
        Sliced numpy array
    """
    if item_type == 0:
        no_slices = no_items
        no_elements = len(a) + 1 - no_slices
        if no_elements <=0:
            raise ValueError('Sliding slicing not possible, no_items is larger than ' + str(len(a)))
    else:
        no_elements = no_items                
        no_slices = len(a) - no_elements + 1
        if no_slices <=0:
            raise ValueError('Sliding slicing not possible, no_items is larger than ' + str(len(a)))

    subarray_shape = a.shape[1:]
    shape_cfg = (no_slices, no_elements) + subarray_shape
    strides_cfg = (a.strides[0],) + a.strides
    as_strided = np.lib.stride_tricks.as_strided #shorthand
    return as_strided(a, shape=shape_cfg, strides=strides_cfg)

此方法自动计算步幅,并且可以与任意尺寸的 numpy 数组一起使用:

一维数组-通过多个切片进行切片

In [11]: a                                                                                                                                                     
Out[11]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [12]: sliding_window_slicing(a, 5, item_type=0)                                                                                                                          
Out[12]: 
array([[0, 1, 2, 3, 4, 5],
       [1, 2, 3, 4, 5, 6],
       [2, 3, 4, 5, 6, 7],
       [3, 4, 5, 6, 7, 8],
       [4, 5, 6, 7, 8, 9]])

一维数组-每个切片通过多个元素进行切片

In [13]: sliding_window_slicing(a, 5, item_type=1)                                                                                                             
Out[13]: 
array([[0, 1, 2, 3, 4],
       [1, 2, 3, 4, 5],
       [2, 3, 4, 5, 6],
       [3, 4, 5, 6, 7],
       [4, 5, 6, 7, 8],
       [5, 6, 7, 8, 9]])

2D数组-通过多个切片进行切片

In [16]: a = np.arange(10).reshape([5,2])                                                                                                                      

In [17]: a                                                                                                                                                     
Out[17]: 
array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [18]: sliding_window_slicing(a, 2, item_type=0)                                                                                                             
Out[18]: 
array([[[0, 1],
        [2, 3],
        [4, 5],
        [6, 7]],

       [[2, 3],
        [4, 5],
        [6, 7],
        [8, 9]]])

2D数组-每个切片通过多个元素进行切片

In [19]: sliding_window_slicing(a, 2, item_type=1)                                                                                                             
Out[19]: 
array([[[0, 1],
        [2, 3]],

       [[2, 3],
        [4, 5]],

       [[4, 5],
        [6, 7]],

       [[6, 7],
        [8, 9]]])