Question

我正在使用numpy中的结构化数组（我最终将转换为pandas数据帧）。

现在，我通过读入一些数据（实际上是重新映射一些数据）然后通过用户指定的约束对其进行过滤来生成此结构化数组。然后我想将这些数据从我读入的形式转换为（所有内容都是一个int以节省我读取它的文件中的空间）为一种更有用的格式，这样我就可以进行一些单位转换（即将其转换为一个浮动）。

我注意到了改变结构化数据类型的一个有趣的工件（或其他东西）。假设数据中的读取结果与下面创建的结构数组相同（请注意，在实际代码中，dtype更长，更复杂，但这对于mwe来说就足够了）：

import numpy as np

names = ['foo', 'bar']
formats = ['i4', 'i4']

dtype = np.dtype({'names': names, 'formats': formats})

data = np.array([(1, 2), (3, 4)], dtype=dtype)
print(data)
print(data.dtype)

这会创建

[(1, 2) (3, 4)]
[('foo', '<i4'), ('bar', '<i4')]

作为结构化数组

现在，假设我想将这两个dtypes上转换为double，同时重命名第二个组件。这似乎应该很容易

names[1] = 'baz'

formats[0] = np.float
formats[1] = np.float

dtype_new = np.dtype({'names': names, 'formats': formats})

data2 = data.copy().astype(dtype_new)

print(data2)
print(data2.dtype)

但结果出乎意料

(1.0, 0.0) (3.0, 0.0)]
[('foo', '<f8'), ('baz', '<f8')]

第二个组件的数据发生了什么变化？我们可以进行这种转换但是如果我们分开的话

dtype_new3 = np.dtype({'names': names, 'formats': formats})

data3 = data.copy().astype(dtype_new3)

print(data3)
print(data3.dtype)

names[1] = 'baz'
data4 = data3.copy()
data4.dtype.names = names

print(data4)
print(data4.dtype)

导致输出正确

[(1.0, 2.0) (3.0, 4.0)]
[('foo', '<f8'), ('bar', '<f8')]
[(1.0, 2.0) (3.0, 4.0)]
[('foo', '<f8'), ('baz', '<f8')]

当使用结构化dtype调用astype时，numpy会匹配每个组件的名称，然后将指定的类型应用于内容（只是在这里猜测，没有查看源代码）。无论如何都要同时进行这种转换（即格式的名称和上转换），或者只是需要完成它的步骤。（如果需要分步完成，这不是什么大不了的事，但对我而言，似乎并不是一步到位。）

Answer 1

有一个函数库，用于处理recarray（以及结构化数组）。这是隐藏的，所以我会搜索找到它。它具有重命名字段，添加和删除字段等功能。一般的操作模式是使用目标dtype创建一个新数组，然后逐个复制字段。由于数组通常包含许多元素和少量字段，因此这不会减慢很多事情。

看起来这个astype方法正在使用某些代码，或者编译代码的行为方式相同。

所以是的，看起来我们需要在不同的步骤中更改字段dtypes和名称。

In [1279]: data=np.array([(1,2),(3,4)],dtype='i,i')
In [1280]: data
Out[1280]: 
array([(1, 2), (3, 4)], 
      dtype=[('f0', '<i4'), ('f1', '<i4')])
In [1281]: dataf=data.astype('f8,f8')     # change dtype, same default names
In [1282]: dataf
Out[1282]: 
array([(1.0, 2.0), (3.0, 4.0)], 
      dtype=[('f0', '<f8'), ('f1', '<f8')])

简单的名称更改：

In [1284]: dataf.dtype.names=['one','two'] 
In [1285]: dataf
Out[1285]: 
array([(1.0, 2.0), (3.0, 4.0)], 
      dtype=[('one', '<f8'), ('two', '<f8')])

In [1286]: data.astype(dataf.dtype)
Out[1286]: 
array([(0.0, 0.0), (0.0, 0.0)], 
      dtype=[('one', '<f8'), ('two', '<f8')])

名称不匹配的astype会生成zero数组，与np.zeros(data.shape,dataf.dtype)相同。通过匹配名称，而不是在dtype中的位置，我可以重新排序值，甚至添加字段。

In [1291]: data.astype([('f1','f8'),('f0','f'),('f3','i')])
Out[1291]: 
array([(2.0, 1.0, 0), (4.0, 3.0, 0)], 
      dtype=[('f1', '<f8'), ('f0', '<f4'), ('f3', '<i4')])

Answer 2

这似乎在最近的 numpy 版本上按预期工作：

names[1] = 'baz'

formats[0] = float
formats[1] = float

dtype_new = np.dtype({'names': names, 'formats': formats})

data2 = data.copy().astype(dtype_new)

print(data2)
print(data2.dtype)

结果

<块引用>

[(1., 2.) (3., 4.)]
[('foo', '<f8'), ('baz', '<f8')]

这似乎与 numpy 中的更改有关，以便在执行操作时按位置而不是按名称匹配结构化数组字段（请参阅 numpy PR#6053: “MAINT: struct assignment "by field position", multi-field indices return views”）。此问题的相关错误报告似乎是 issue #7058: “astype converts numpy array values to 0.0 for structured dtype”。

如果这确实是相关更改，那么修复/实现此问题的 numpy 版本应该是 v1.14.0，请参阅 release notes for numpy 1.14.0: “Changes – Multiple-field indexing/assignment of structured arrays”。

更改numpy结构化数组dtype名称和格式

2 个答案: