Question

我目前在熊猫数据框中具有以下形式的数据：

parameter1  23432552
parameter2  23647324 this is another parameter value
parameter3  43874328 this value is a thing as well
parameter4  4.34e-03

有多列具有相同格式的数据，因此我想运行一个命令，该命令将获取每个数字值，剥离所有文本并将其转换为可用的浮点数。到目前为止，我已经使用了一些正则表达式对其进行了清理，但是我不知道一种匹配任何给定文本的方法。任何帮助表示赞赏！

Answer 1

这不是最直接的方法，但是您可以提取包含数字e，-和>>> df 0 1 0 parameter1 23432552 1 parameter2 23647324 this is another parameter value 2 parameter3 43874328 this value is a thing as well 3 parameter4 4.34e-03的数字：

给定：

df['newcolumn'] = pd.to_numeric(df[1].str.extract('([-\.\de]+)'))

>>> df
            0                                         1     newcolumn
0  parameter1                                  23432552  2.343255e+07
1  parameter2  23647324 this is another parameter value  2.364732e+07
2  parameter3    43874328 this value is a thing as well  4.387433e+07
3  parameter4                                  4.34e-03  4.340000e-03

类似的东西：

/admin/products.json?title=title1,title2&fields=id,title&limit=250

如何从熊猫数据框中的列中剥离文本

1 个答案: