str()和astype(str)之间的区别?

时间:2015-05-07 08:01:31

标签: string python-3.x pandas hdf5

我想将数据帧df保存到.h5文件MainDataFile.h5:

df.to_hdf ("c:/Temp/MainDataFile.h5", "MainData", mode = "w", format = "table", data_columns=['_FirstDayOfPeriod','Category','ChannelId'])

并收到以下错误:

  

***异常:找不到正确的原子类型 - > > [dtype-> object,items-> Index(['Libellé_Article','Libellé_segment'],dtype ='object')]

如果我以这种方式修改“Libellé_Article”列:

df['Libellé_Article'] = str(df['Libellé_Article'])

不再有错误,而在执行时仍然会收到错误消息:

df['Libellé_Article'] = df['Libellé_Article'].astype(str)

问题是使用str()会炸毁我的ram。

有什么想法吗?

1 个答案:

答案 0 :(得分:3)

str(df['Libellé_Article'])会将整个列的内容转换为单个字符串。它会以一个非常大的字符串结束。这就是炸毁RAM的原因

例如

>> df = pd.DataFrame([1,2,3], columns=['A'])
>> df['A']
0    1
1    2
2    3 
Name: A, dtype: int64

>> str(df['A'])
 '0    1\n1    2\n2    3\nName: A, dtype: int64'
>> df['A'].astype(str)
0    1
1    2
2    3
Name: A, dtype: object

因此,如果要将整个列转换为字符串

,则应仅使用.astype(str)