Python:将numpy字符串数组转换为数字数组的最快方法

时间:2016-02-24 13:18:51

标签: python arrays string numpy numbers

任何人都可以告诉我将这个字符串数组转换为数字数组的最快方法是什么,如下所示:

import numpy as np
strarray = np.array([["123456"], ["654321"]])

     to

numberarray = np.array([[1,2,3,4,5,6], [6,5,4,3,2,1]])

将str映射到列表然后将str映射到int对于大型数组来说太慢了!

请帮忙!

2 个答案:

答案 0 :(得分:2)

您可以使用数组view方法将字符串拆分为单个字符:

In [18]: strarray = np.array([[b"123456"], [b"654321"]])

In [19]: strarray.dtype
Out[19]: dtype('S6')

In [20]: strarray.view('S1')
Out[20]: 
array([['1', '2', '3', '4', '5', '6'],
       ['6', '5', '4', '3', '2', '1']], 
      dtype='|S1')

有关数据类型字符代码,请参阅here

然后最明显的下一步是使用astype

In [23]: strarray.view('S1').astype(int)
Out[23]: 
array([[1, 2, 3, 4, 5, 6],
       [6, 5, 4, 3, 2, 1]])

但是,将字符串下的内存重新解释(查看)为单字节整数并减去48会快得多。这是因为ASCII字符占用一个字节而字符'0'到{{1}二进制等价于(u)int8的48到57(检查ord builtin)。

速度比较:

'9'

如果使用Unicode而不是ASCII,则需要执行稍微不同的这些步骤。或者只使用In [26]: ar = np.array([[''.join(np.random.choice(list('123456789'), size=320))] for _ in range(1000)], bytes) In [27]: %timeit _ = ar.view('S1').astype(np.uint8) 1 loops, best of 3: 284 ms per loop In [28]: %timeit _ = ar.view(np.uint8) - ord('0') 1000 loops, best of 3: 1.07 ms per loop 转换为ASCII。

答案 1 :(得分:0)

这是一种将输入字符串转换为N长数字数组的方法,即每个字符串都转换为长度为N的1D数组,其中N是每个字符串的长度。 这里建议的方法基本上将字符串转换为它们的int等价物,然后使用与前面元素'power-10缩放版本的区别来获取所有数字。实现看起来像这样 -

A = (strarray.astype(int)/(10**np.arange(len(strarray[0][0])))).astype(int)
out = np.column_stack((A[:,-1],(A[:,:-1] - 10*A[:,1:])[:,::-1]))

示例运行 -

In [177]: strarray  = np.array([["0308468"], ["6540542"], ["4973473"]])

In [178]: A = (strarray.astype(int)/(10**np.arange(len(strarray[0][0])))).astype(int)
     ...: out = np.column_stack((A[:,-1],(A[:,:-1] - 10*A[:,1:])[:,::-1]))
     ...: 

In [179]: out
Out[179]: 
array([[0, 3, 0, 8, 4, 6, 8],
       [6, 5, 4, 0, 5, 4, 2],
       [4, 9, 7, 3, 4, 7, 3]])