如何将pandas数据帧的数据类型更改为具有已定义格式的字符串?

时间:2014-03-08 23:34:11

标签: python string floating-point pandas format

我开始用这个撕掉我的头发 - 所以我希望有人可以提供帮助。我有一个使用openpyxl从Excel电子表格创建的pandas DataFrame。生成的DataFrame如下所示:

print image_name_data
     id           image_name
0  1001  1001_mar2014_report
1  1002  1002_mar2014_report
2  1003  1003_mar2014_report

[3 rows x 2 columns]

...使用以下数据类型:

print image_name_data.dtypes
id            float64
image_name     object
dtype: object

问题是id列中的数字实际上是标识号,我需要将它们视为字符串。我尝试使用以下方法将id列转换为字符串:

image_name_data['id'] = image_name_data['id'].astype('str')

这看起来有点难看,但确实产生了'object'类型的变量而不是'float64':

print image_name_data.dyptes
id            object
image_name    object
dtype: object

但是,创建的字符串有一个小数点,如下所示:

print image_name_data
       id           image_name
0  1001.0  1001_mar2014_report
1  1002.0  1002_mar2014_report
2  1003.0  1003_mar2014_report

[3 rows x 2 columns]

如何将pandas DataFrame中的float64列转换为具有给定格式的字符串(在本例中为'%10.0f')?

3 个答案:

答案 0 :(得分:53)

我无法重现您的问题,但您是否尝试先将其转换为整数?

image_name_data['id'] = image_name_data['id'].astype(int).astype('str')

然后,关于更一般的问题,您可以使用mapas in this answer)。在你的情况下:

image_name_data['id'] = image_name_data['id'].map('{:.0f}'.format)

答案 1 :(得分:6)

如果你可以重新加载它,你可能可以使用dtypes参数。

pd.read_csv(..., dtype={'COL_NAME':'str'})

答案 2 :(得分:2)

我把它放在一个新的答案中,因为评论中没有换行符/代码块。 我假设你想要那些nans变成一个空白字符串?我无法找到一个很好的方法,只做丑陋的方法:

s = pd.Series([1001.,1002.,None])
a = s.loc[s.isnull()].fillna('')
b = s.loc[s.notnull()].astype(int).astype(str)
result = pd.concat([a,b])