这是我的DataFrame:
d = {'col1': ['sku 1.1', 'sku 1.2', 'sku 1.3'], 'col2': ['9.876.543,21', 654, '321,01']}
df = pd.DataFrame(data=d)
df
col1 col2
0 sku 1.1 9.876.543,21
1 sku 1.2 654
2 sku 1.3 321,01
col2中的数据是本地格式的数字,我想将其转换为:
col2
9876543.21
654
321.01
我尝试了df['col2'] = pd.to_numeric(df['col2'], downcast='float')
,它返回一个ValueError ::无法解析字符串" 9.876.543,21"在位置0。
我还尝试了df = df.apply(lambda x: x.str.replace(',', '.'))
,它返回ValueError:无法将字符串转换为float:' 5.023.654.46'
感谢您的帮助!
答案 0 :(得分:13)
最好使用read_csv
中的可能参数:
df = pd.read_csv(file, thousands='.', decimal=',')
如果不可能,那么replace
应该有所帮助:
df['col2'] = (df['col2'].replace('\.','', regex=True)
.replace(',','.', regex=True)
.astype(float))
答案 1 :(得分:0)
你可以试试
[0-9]{4}-(0[1-9]|1[0-2])-(0[1-9]|[1-2][0-9]|3[0-1]) (2[0-3]|[01][0-9]):[0-5][0-9]:[0-5][0-9]
答案 2 :(得分:0)
在使用标准系统设施的情况下,总是更好。知道某些语言环境使用逗号和小数点的方式不同,我无法相信Pandas不会使用语言环境的格式。
当然,快速搜索显示this gist,它解释了如何利用区域设置将字符串转换为数字。本质上,您需要import locale
并在构建数据框调用locale.setlocale
以建立使用逗号作为小数点和分隔符的句点的区域设置之后,然后应用数据框的applymapp
方法。