当我使用.astype(str)时,为什么numpy / pandas只返回第一个字符

时间:2013-08-15 00:00:11

标签: python numpy pandas

我正在尝试使用.astype()函数将int32转换为字符串。当我尝试在熊猫系列上使用转换时,我首先注意到这一点,但是当我用numpy测试时,我看到了相同的行为,所以我假设numpy是潜在的原因。

In [0]: import numpy as np
In [1]: test = np.array([1, 22, 333, 4444])
In [2]: test.astype(str)
Out [2]: array(['1', '2', '3'],
              dtype='|S1')

为什么它是默认为S1而不是S4,正如我所期望的那样,为了捕捉全长?看起来很简单,但也许有些东西我不见了?当我明确指定S3(或更高版本)时,它可以正常工作:

In [3]: test.astype('S10')
Out [3]: array(['1', '22', '333', '4444'],
              dtype='|S10')

基于我在网上看到的例子,似乎我不应该指定这种方式。我安装了numpy 1.6.1。

2 个答案:

答案 0 :(得分:1)

在1.7.1中,它可以正常工作。这可能是一个错误。

In [11]: test = np.array([1, 22, 333, 4444])
In [12]: test.astype(str)
Out[12]: array(['1', '22', '333', '4444'], dtype='|S24')
In [13]: np.version.version
Out[13]: '1.7.1'

答案 1 :(得分:1)

当你达到65个字符时,你还会遇到numpy的另一个障碍,但是pandas会解决这个问题,因为每个str对象都存储为Python对象的不透明指针,而不是{{ 1}}类型。

numpy.string_

为了公平对待In [18]: from pandas.util.testing import rands In [19]: s = Series([rands(120) for _ in range(10)]) In [20]: s Out[20]: 0 LdeUwCKNFi4SWWfnAsKK3VIdDegy35lokoOr5DfCePoGn2... 1 xXmofyBFUfCiApbqNEDtJs6JhU0QAhIG8sQRCKkKMdTZuZ... 2 t3XcQFDQhg8BxAc9vFeo5Ky6beMxp9IGj54u3OzELR8lRf... 3 tWufKLo4OiW8lMpB8NiHzy0REAnAtAmLrDJyLzi1GBSRwS... 4 bysGao2rhiqxfmv54eDT6qcshlk0E7srrRLnuBDRRu7oVg... 5 AYIZFysXR9vispYQEfwqaZ20YYvR52pPkBtd2acOapK3Mv... 6 eLAwKopRuynrY75dn7vEfUnqhoSDLh5mGSBclFDaItwyxJ... 7 oj8ilX2EvhegAI4FvZQxJU0hTDR04aLySNdCXPmqOLa6CF... 8 5mEX5o23PMg5yWEE6bofk5tqzPCFNNCIn1v3ynYxicVXa8... 9 c2fS5Z1w7IxKq72x5KM8WhNChfrEJoFavdD1DQUJn4NCNP... dtype: object In [21]: s.astype(str).map(len) Out[21]: 0 120 1 120 2 120 3 120 4 120 5 120 6 120 7 120 8 120 9 120 dtype: int64 In [22]: map(len, s.values.astype(str)) Out[22]: [64, 64, 64, 64, 64, 64, 64, 64, 64, 64] ,这已在拉取请求#3270中修复,并在numpy 1.8中修复。

编辑以解决初始问题(将numpy数组转换为int数组),因为您已将其标记为str你可以做到

pandas

这适用于早于1.7 In [4]: s = Series([1, 22, 333, 4444]) In [5]: s Out[5]: 0 1 1 22 2 333 3 4444 dtype: int64 In [6]: s.astype(str) Out[6]: 0 1 1 22 2 333 3 4444 dtype: object 的版本,但您必须升级到numpy的更高版本,一个版本在f0c1bd或之后。或者你可以做

pandas

应适用于在In [3]: s = Series([1, 22, 333, 4444]) In [4]: s.map(str) Out[4]: 0 1 1 22 2 333 3 4444 dtype: object 个对象上具有pandas方法的任何map版本以及Series支持的任何numpy版本。