在NumPy 1.14中将结构化数组的切片转换为常规NumPy数组

时间:2018-04-25 17:38:24

标签: python numpy structured-array

注1:this question给出的答案都不适用于我的情况。

注2:解决方案必须适用于NumPy 1.14。

假设我有以下结构化数组:

arr = np.array([(105.0, 34.0, 145.0, 217.0)], dtype=[('a', 'f4'), ('b', 'f4'), ('c', 'f4'), ('d', 'f4')])

现在我正在切入结构化数据类型,如下所示:

arr2 = arr[['a', 'b']]

现在我正在尝试将该切片转换为常规数组:

out = arr2[0].view((np.float32, 2))

导致

ValueError: Changing the dtype of a 0d array is only supported if the itemsize is unchanged

我想得到的只是一个像这样的常规数组:

[105.0, 34.0]

请注意,此示例已经过简化,以便尽量减少。在我的实际用例中,我显然没有处理包含一个元素的数组。

我知道这个解决方案有效:

out = np.asarray(list(arr2[0]))

但我认为必须有一个更有效的解决方案,而不是将已经存在于NumPy数组中的数据复制到列表中然后再返回到数组中。我假设有一种方法可以留在NumPy中,可能根本没有复制任何数据,我只是不知道如何。

1 个答案:

答案 0 :(得分:2)

1d数组确实转换为view

In [270]: arr = np.array([(105.0, 34.0, 145.0, 217.0)], dtype=[('a', 'f4'), ('b','f4'), ('c', 'f4'), ('d', 'f4')])
In [271]: arr
Out[271]: 
array([(105., 34., 145., 217.)],
      dtype=[('a', '<f4'), ('b', '<f4'), ('c', '<f4'), ('d', '<f4')])
In [272]: arr.view('<f4')
Out[272]: array([105.,  34., 145., 217.], dtype=float32)

当我们尝试转换单个元素时,我们会收到此错误:

In [273]: arr[0].view('<f4')
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-273-70fbab8f61ba> in <module>()
----> 1 arr[0].view('<f4')

ValueError: Changing the dtype of a 0d array is only supported if the itemsize is unchanged

早些时候view经常需要对维度进行调整。我怀疑最近对结构化数组的处理有所改变(在一次索引多个字段时最明显),这个错误是有意或无意的结果。

在整个数组的情况下,它将1d,4字段数组更改为1d,4元素数组,(1,)到(4,)。但是改变元素,从()到(4,)。

在过去,我建议使用tolist作为解决view(和astype)问题的唯一方法:

In [274]: arr[0].tolist()
Out[274]: (105.0, 34.0, 145.0, 217.0)
In [279]: list(arr[0].tolist())
Out[279]: [105.0, 34.0, 145.0, 217.0]
In [280]: np.array(arr[0].tolist())
Out[280]: array([105.,  34., 145., 217.])

item也是一种将元素从其numpy结构中拉出来的好方法:

In [281]: arr[0].item()
Out[281]: (105.0, 34.0, 145.0, 217.0)

tolostitem的结果是一个元组。

你担心速度。但你只是转换一个元素。在1000个项目数组上使用tolist时要担心速度是一回事,使用1个元素时要担心另一个问题。

In [283]: timeit arr[0]
131 ns ± 1.31 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
In [284]: timeit arr[0].tolist()
1.25 µs ± 11.9 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
In [285]: timeit arr[0].item()
1.27 µs ± 2.39 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
In [286]: timeit arr.tolist()
493 ns ± 17.2 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
In [287]: timeit arr.view('f4')
1.74 µs ± 18.7 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

你可以用不会将维度减少到0的方式索引元素(不是它对速度有多大帮助):

In [288]: arr[[0]].view('f4')
Out[288]: array([105.,  34., 145., 217.], dtype=float32)
In [289]: timeit arr[[0]].view('f4')
6.54 µs ± 15.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
In [290]: timeit arr[0:1].view('f4')
2.63 µs ± 105 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
In [298]: timeit arr[0][None].view('f4')
4.28 µs ± 160 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

view仍然需要改变形状;考虑一个大阵列:

In [299]: arrs = np.repeat(arr, 10000)
In [301]: arrs.view('f4')
Out[301]: array([105.,  34., 145., ...,  34., 145., 217.], dtype=float32)
In [303]: arrs.shape
Out[303]: (10000,)
In [304]: arrs.view('f4').shape
Out[304]: (40000,)

视图仍然是1d,因为我们可能需要一个(10000,4)形状的2d数组。

更好的观点变化:

In [306]: arrs.view(('f4',4))
Out[306]: 
array([[105.,  34., 145., 217.],
       [105.,  34., 145., 217.],
       [105.,  34., 145., 217.],
       ...,
       [105.,  34., 145., 217.],
       [105.,  34., 145., 217.],
       [105.,  34., 145., 217.]], dtype=float32)
In [307]: _.shape
Out[307]: (10000, 4)

这适用于1元素数组,无论是1d还是0d:

In [308]: arr.view(('f4',4))
Out[308]: array([[105.,  34., 145., 217.]], dtype=float32)
In [309]: _.shape
Out[309]: (1, 4)
In [310]: arr[0].view(('f4',4))
Out[310]: array([105.,  34., 145., 217.], dtype=float32)
In [311]: _.shape
Out[311]: (4,)

您的链接中的一个答案中提出了这一点:https://stackoverflow.com/a/10171321/901925

与你的评论相反,它对我有用:

In [312]: arr[0].view((np.float32, len(arr.dtype.names)))
Out[312]: array([105.,  34., 145., 217.], dtype=float32)
In [313]: np.__version__
Out[313]: '1.14.0'

使用编辑:

In [84]: arr = np.array([(105.0, 34.0, 145.0, 217.0)], dtype=[('a', 'f4'), ('b','f4'), ('c', 'f4'), ('d', 'f4')])
In [85]: arr2 = arr[['a', 'b']]
In [86]: arr2
Out[86]: 
array([(105., 34.)],
      dtype={'names':['a','b'], 'formats':['<f4','<f4'], 'offsets':[0,4], 'itemsize':16})

In [87]: arr2.view(('f4',2))
...
ValueError: Changing the dtype to a subarray type is only supported if the total itemsize is unchanged

请注意,arr2 dtype包含offsets值。在最近的numpy版本中,多个字段选择已更改。它现在是一个真实的视图,保留原始数据 - 所有这些,而不仅仅是选定的字段。 itemsize保持不变:

In [93]: arr.itemsize
Out[93]: 16
In [94]: arr2.itemsize
Out[94]: 16

arr.view(('f4',4)arr2.view(('f4',4))会产生相同的结果。

所以你不能view(改变dtype)部分字段集。您必须首先获取整个数组的view,然后选择行/列,或使用tolist

我正在使用1.14.01.14.1的发行说明说:

  

1.14.0中结构化数组的多字段索引返回a的变化   视图而不是副本已被恢复,但仍然在NumPy 1.15的轨道上。   受影响的用户应阅读1.14.1 Numpy用户指南部分   “基础/结构化数组/访问多个字段”以获取有关如何使用的建议   管理这种转变。

https://docs.scipy.org/doc/numpy-1.14.2/user/basics.rec.html#accessing-multiple-fields

这仍在开发中。那个doc提到了一个repack_fields函数,但是还没有。