numpy order数组切片索引如何?

时间:2014-11-23 21:19:44

标签: python arrays numpy indexing slice

我有一个np.array data的形状(28,8,20),我只需要它的某些条目,所以我正在切片:

In [41]: index = np.array([ 5,  6,  7,  8,  9, 10, 11, 17, 18, 19])
In [42]: extract = data[:,:,index]
In [43]: extract.shape
Out[43]: (28, 8, 10)

到目前为止一切都那么好,一切都应该如此。但现在我只想看看第一行最后一个索引的前两个条目:

In [45]: extract[0,:,np.array([0,1])].shape
Out[45]: (2, 8)
等等,应该是(8,2)。它改变了指数,即使我最后一次切片时没有!根据我的理解,以下应采取相同的行动:

In [46]: extract[0,:,:2].shape
Out[46]: (8, 2)

......但它确实给了我想要的东西!但是,只要我有一个3D数组,这两种方法似乎都是等价的:

In [47]: extract[:,:,np.array([0,1])].shape
Out[47]: (28, 8, 2)

In [48]: extract[:,:,:2].shape
Out[48]: (28, 8, 2)

那么,如果我不仅需要前两个条目而且需要不规则列表,该怎么办?我当然可以在操作后转置矩阵,但这看起来非常违反直觉。 我的问题的一个更好的解决方案是这个(尽管可能有更优雅的一个):

In [64]: extract[0][:,[0,1]].shape
Out[64]: (8, 2)

这将我们带到了实际的

问题:

我想知道这种行为的原因是什么?无论谁决定它应该如何工作,可能比我更了解编程,并认为这在某些方面是一致的,我完全没有。除非我有办法理解它,否则我可能会继续关注这个问题。

2 个答案:

答案 0 :(得分:5)

这是(高级)部分索引的情况。有2个索引数组和1个切片

  

如果索引子空间是分开的(通过切片对象),则首先是广播的索引空间,然后是x的切片子空间。

http://docs.scipy.org/doc/numpy-1.8.1/reference/arrays.indexing.html#advanced-indexing

ind_1ind_2可广播子空间为shape (2,3,4)时,高级索引示例会注意到:

  

然而,x [:,ind_1,:,ind_2]具有形状(2,3,4,10,30,50),因为在索引子空间中没有明确的位置,因此它被添加到一开始。始终可以使用.transpose()将子空间移动到任何需要的位置。

换句话说,此索引与x[:, ind_1][[:,ind_2]不同。这两个数组共同运作以定义(2,3,4)子空间。

在您的示例中,extract[0,:,np.array([0,1])]被理解为意味着,选择一个(2,)子空间([0]和[0,1]联合行动,而不是顺序行动),并以某种方式将其与中间维度。

更详细的示例是extract[[1,0],:,[[0,1],[1,0]]],它会生成(2,2,8)数组。这是第一个和最后一个维度的(2,2)子空间,加上中间维度。另一方面,X[[1,0]][:,:,[[0,1],[1,0]]]生成(2,8,2,2),分别从第一维和最后一维中进行选择。

关键区别在于索引选择是顺序操作还是联合操作。 [...] [...]语法已经可以按顺序运行。高级索引为您提供了一种联合索引方式。

答案 1 :(得分:3)

你是对的,这很奇怪。我只能冒这个猜测。我认为这与a[[0,1],[0,1],[0,1]].shape(2,)而不是(2,2,2)a[0,1,[0,1,2]]实际上意味着a[[0,0,0],[1,1,1],[0,1,2]]评估为{{1}的事实有关}}。也就是说,您逐步浏览每个维度的列表 - 索引,长度一个列表和标量被广播以匹配最长的。

从概念上讲,这会使array([a[0,1,0],a[0,1,1],a[0,1,2]])等同于extract[0,:,[0,1]](如果您手动指定语法,则不会接受该语法)。在单步执行索引后,将评估为extract[[0,0],[slice(None),slice(None)],[0,1]]。每个内部提取都会计算为array([extract[0,slice(None),0],extract[0,slice(None),1])个形状数组,因此完整结果为(8,)形状。

总而言之,我认为广播的副作用是使所有维度都具有相同长度的索引列表,这导致(2,8)也被广播。这是我的假设,但我还没有看到:如何做到这一点的内部运作。也许专家会得到一个更好的解释。

这个假设并不能解释为什么numpy不会导致相同的行为。我不得不假设只有领导":"是特殊的,以避免参与列表索引逻辑。