我正在尝试使用.astype()函数将int32转换为字符串。当我尝试在熊猫系列上使用转换时,我首先注意到这一点,但是当我用numpy测试时,我看到了相同的行为,所以我假设numpy是潜在的原因。
In [0]: import numpy as np
In [1]: test = np.array([1, 22, 333, 4444])
In [2]: test.astype(str)
Out [2]: array(['1', '2', '3'],
dtype='|S1')
为什么它是默认为S1而不是S4,正如我所期望的那样,为了捕捉全长?看起来很简单,但也许有些东西我不见了?当我明确指定S3(或更高版本)时,它可以正常工作:
In [3]: test.astype('S10')
Out [3]: array(['1', '22', '333', '4444'],
dtype='|S10')
基于我在网上看到的例子,似乎我不应该指定这种方式。我安装了numpy 1.6.1。
答案 0 :(得分:1)
在1.7.1中,它可以正常工作。这可能是一个错误。
In [11]: test = np.array([1, 22, 333, 4444])
In [12]: test.astype(str)
Out[12]: array(['1', '22', '333', '4444'], dtype='|S24')
In [13]: np.version.version
Out[13]: '1.7.1'
答案 1 :(得分:1)
当你达到65个字符时,你还会遇到numpy
的另一个障碍,但是pandas会解决这个问题,因为每个str
对象都存储为Python对象的不透明指针,而不是{{ 1}}类型。
numpy.string_
为了公平对待In [18]: from pandas.util.testing import rands
In [19]: s = Series([rands(120) for _ in range(10)])
In [20]: s
Out[20]:
0 LdeUwCKNFi4SWWfnAsKK3VIdDegy35lokoOr5DfCePoGn2...
1 xXmofyBFUfCiApbqNEDtJs6JhU0QAhIG8sQRCKkKMdTZuZ...
2 t3XcQFDQhg8BxAc9vFeo5Ky6beMxp9IGj54u3OzELR8lRf...
3 tWufKLo4OiW8lMpB8NiHzy0REAnAtAmLrDJyLzi1GBSRwS...
4 bysGao2rhiqxfmv54eDT6qcshlk0E7srrRLnuBDRRu7oVg...
5 AYIZFysXR9vispYQEfwqaZ20YYvR52pPkBtd2acOapK3Mv...
6 eLAwKopRuynrY75dn7vEfUnqhoSDLh5mGSBclFDaItwyxJ...
7 oj8ilX2EvhegAI4FvZQxJU0hTDR04aLySNdCXPmqOLa6CF...
8 5mEX5o23PMg5yWEE6bofk5tqzPCFNNCIn1v3ynYxicVXa8...
9 c2fS5Z1w7IxKq72x5KM8WhNChfrEJoFavdD1DQUJn4NCNP...
dtype: object
In [21]: s.astype(str).map(len)
Out[21]:
0 120
1 120
2 120
3 120
4 120
5 120
6 120
7 120
8 120
9 120
dtype: int64
In [22]: map(len, s.values.astype(str))
Out[22]: [64, 64, 64, 64, 64, 64, 64, 64, 64, 64]
,这已在拉取请求#3270中修复,并在numpy 1.8中修复。
编辑以解决初始问题(将numpy
数组转换为int
数组),因为您已将其标记为str
你可以做到
pandas
这适用于早于1.7 In [4]: s = Series([1, 22, 333, 4444])
In [5]: s
Out[5]:
0 1
1 22
2 333
3 4444
dtype: int64
In [6]: s.astype(str)
Out[6]:
0 1
1 22
2 333
3 4444
dtype: object
的版本,但您必须升级到numpy
的更高版本,一个版本在f0c1bd
或之后。或者你可以做
pandas
应适用于在In [3]: s = Series([1, 22, 333, 4444])
In [4]: s.map(str)
Out[4]:
0 1
1 22
2 333
3 4444
dtype: object
个对象上具有pandas
方法的任何map
版本以及Series
支持的任何numpy版本。