我目前在熊猫数据框中具有以下形式的数据:
parameter1 23432552
parameter2 23647324 this is another parameter value
parameter3 43874328 this value is a thing as well
parameter4 4.34e-03
有多列具有相同格式的数据,因此我想运行一个命令,该命令将获取每个数字值,剥离所有文本并将其转换为可用的浮点数。到目前为止,我已经使用了一些正则表达式对其进行了清理,但是我不知道一种匹配任何给定文本的方法。任何帮助表示赞赏!
答案 0 :(得分:1)
这不是最直接的方法,但是您可以提取包含数字e
,-
和>>> df
0 1
0 parameter1 23432552
1 parameter2 23647324 this is another parameter value
2 parameter3 43874328 this value is a thing as well
3 parameter4 4.34e-03
的数字:
给定:
df['newcolumn'] = pd.to_numeric(df[1].str.extract('([-\.\de]+)'))
>>> df
0 1 newcolumn
0 parameter1 23432552 2.343255e+07
1 parameter2 23647324 this is another parameter value 2.364732e+07
2 parameter3 43874328 this value is a thing as well 4.387433e+07
3 parameter4 4.34e-03 4.340000e-03
类似的东西:
/admin/products.json?title=title1,title2&fields=id,title&limit=250