dtype = object在创建numpy数组时意味着什么?

时间:2015-04-26 12:16:49

标签: python arrays numpy types

我正在尝试使用numpy数组并创建了一个numpy字符串数组:

ar1 = np.array(['avinash', 'jay'])

正如我从其官方指南中读到的那样,numpy数组上的操作会传播到单个元素。所以我这样做了:

ar1 * 2

但后来我收到了这个错误:

TypeError                                 Traceback (most recent call last)
<ipython-input-22-aaac6331c572> in <module>()
----> 1 ar1 * 2

TypeError: unsupported operand type(s) for *: 'numpy.ndarray' and 'int'

但是当我使用dtype=object

ar1 = np.array(['avinash', 'jay'], dtype=object)

在创建数组时,我可以执行所有操作。

谁能告诉我为什么会这样?

1 个答案:

答案 0 :(得分:21)

NumPy数组存储为连续的内存块。它们通常具有单一数据类型(例如整数,浮点数或固定长度字符串),然后内存中的位被解释为具有该数据类型的值。

使用dtype=object创建数组是不同的。数组所占用的内存现在用指针填充到Python对象中,这些对象存储在内存中的别处(很像Python list实际上只是一个列表指向对象的指针,而不是对象本身。)

*之类的算术运算符不适用于具有ar1数据类型的string_等数组(而是有特殊函数 - 见下文)。 NumPy只是将内存中的位视为字符,而*运算符在这里没有意义。但是,行

np.array(['avinash','jay'], dtype=object) * 2

有效,因为现在数组是(指向)Python字符串的数组。 *运算符已为这些Python字符串对象定义良好。在内存中创建新的Python字符串,并返回一个新的object数组,并引用新字符串。

如果你有一个包含string_unicode_ dtype的数组并希望重复每个字符串,则可以使用np.char.multiply

In [52]: np.char.multiply(ar1, 2)
Out[52]: array(['avinashavinash', 'jayjay'], 
      dtype='<U14')

NumPy还有很多其他vectorised string methods