如何从熊猫数据框中的列中剥离文本

时间:2018-08-16 01:51:11

标签: python regex pandas dataframe

我目前在熊猫数据框中具有以下形式的数据:

parameter1  23432552
parameter2  23647324 this is another parameter value
parameter3  43874328 this value is a thing as well
parameter4  4.34e-03

有多列具有相同格式的数据,因此我想运行一个命令,该命令将获取每个数字值,剥离所有文本并将其转换为可用的浮点数。到目前为止,我已经使用了一些正则表达式对其进行了清理,但是我不知道一种匹配任何给定文本的方法。任何帮助表示赞赏!

1 个答案:

答案 0 :(得分:1)

这不是最直接的方法,但是您可以提取包含数字e->>> df 0 1 0 parameter1 23432552 1 parameter2 23647324 this is another parameter value 2 parameter3 43874328 this value is a thing as well 3 parameter4 4.34e-03 的数字:

给定:

df['newcolumn'] = pd.to_numeric(df[1].str.extract('([-\.\de]+)'))

>>> df
            0                                         1     newcolumn
0  parameter1                                  23432552  2.343255e+07
1  parameter2  23647324 this is another parameter value  2.364732e+07
2  parameter3    43874328 this value is a thing as well  4.387433e+07
3  parameter4                                  4.34e-03  4.340000e-03

类似的东西:

/admin/products.json?title=title1,title2&fields=id,title&limit=250