Question

我有一个巨大的numpy数组，其中元素是字符串。我喜欢用字符串的第一个字母替换字符串。例如，如果

C [0] =＆＃39; A90CD＆＃39;

我想用

替换它

C[0] = 'A'

简而言之，我正在考虑在循环中应用正则表达式，其中我有一个正则表达式字典，如

＆＃39; ^ A + $＆＃39。 =＆GT; ＆＃39; A＆＃39;

＆＃39; ^ B + $＆＃39; =＆GT; ＆＃39; B＆＃39;   等

如何在numpy数组上应用此正则表达式？或者有更好的方法来实现同样的目标吗？

Answer 1

这里不需要正则表达式。只需使用astype -

将数组转换为1字节字符串即可

v = np.array(['abc', 'def', 'ghi'])

>>> v.astype('<U1')
array(['a', 'd', 'g'],
      dtype='<U1')

或者，您可以更改其view并大步前进。这是针对等大小字符串的略微优化版本。 -

>>> v.view('<U1')[::len(v[0])]
array(['a', 'd', 'g'],
      dtype='<U1')

这是.view方法的更通用版本，但这适用于具有不同长度的字符串数组。感谢Paul Panzer为suggestion -

>>> v.view('<U1').reshape(v.shape + (-1,))[:, 0]
array(['a', 'd', 'g'],
      dtype='<U1')

<强>性能

y = np.array([x * 20 for x in v]).repeat(100000)

y.shape
(300000,)

len(y[0])   # they're all the same length - `abcabcabc...`
60

现在，时间 -

# `astype` conversion

%timeit y.astype('<U1')
100 loops, best of 3: 5.03 ms per loop

# `view` for equal sized string arrays 

%timeit y.view('<U1')[::len(y[0])]
100000 loops, best of 3: 2.43 µs per loop

# Paul Panzer's version for differing length strings

%timeit y.view('<U1').reshape(y.shape + (-1,))[:, 0]
100000 loops, best of 3: 3.1 µs per loop

但是，请谨慎使用，因为内存是共享的。

如果您对找到第一个字母（无论它在哪里）的更通用的解决方案感兴趣，我会说最快/最简单的方法是使用{{ 1}}模块，编译模式并在列表理解中搜索。

re

并且，它在上述相同设置中的表现 -

>>> p = re.compile('[a-zA-Z]')
>>> [p.search(x).group() for x in v]
['a', 'd', 'g']