在数据帧上迭代re.split()

时间:2018-11-20 21:58:56

标签: python regex python-3.x pandas loops

我正在尝试使用re.split()将熊猫数据框中的单个变量拆分为其他两个变量。

我的数据如下:

   xg              
0.05+0.43
0.93+0.05
0.00
0.11+0.11
0.00
3.94-2.06

我要创建

 e      a
0.05  0.43
0.93  0.05
0.00  
0.11  0.11
0.00
3.94  2.06

我可以使用for循环和and索引来做到这一点。

for i in range(len(df)):
    if df['xg'].str.len()[i] < 5:
        df['e'][i] = df['xg'][i]
    else:
        df['e'][i], df['a'][i] = re.split("[\+ \-]", df['xg'][i])

但是,这很慢,我不认为这样做是一种好方法,我正在努力提高对代码/ python的理解。

我尝试通过尝试使用np.where编写它,或者使用列表推导或应用lambda进行了各种尝试,但是我无法使其运行得太快。我认为我遇到的所有问题都是因为我试图将功能应用于整个系列而不是位置值。

如果有人比我的for循环更好的方法的想法,我将非常感兴趣。

3 个答案:

答案 0 :(得分:2)

使用带有expand参数的str.split方法从此答案中借来: https://stackoverflow.com/a/14745484/3084939

df = pd.DataFrame({'col': ['1+2','3+4','20','0.6-1.6']})
df[['left','right']] = df['col'].str.split('[+|-]', expand=True)

df.head()
       col left right
0      1+2    1     2
1      3+4    3     4
2       20   20  None
3  0.6+1.6  0.6   1.6

答案 1 :(得分:0)

这可能是您想要的。不确定它是否优雅,但应该比python循环更快。

import pandas as pd
import numpy as np

data = ['0.05+0.43','0.93+0.05','0.00','0.11+0.11','0.00','3.94-2.06']
df = pd.DataFrame(data, columns=['xg'])

# Solution
tmp = df['xg'].str.split(r'[ \-+]')
df['e'] = tmp.apply(lambda x: x[0])
df['a'] = tmp.apply(lambda x: x[1] if len(x) > 1 else np.nan)
del(tmp) 

答案 2 :(得分:0)

要保留的正则表达式 - ve 符号

import pandas as pd 
import re

df1 = pd.DataFrame({'col': ['1+2','3+4','20','0.6-1.6']})
data = [[i] + re.findall('-*[0-9.]+', i) for i in df1['col']]

df = pd.DataFrame(data, columns=["col", "left", "right"])

print(df.head())
col left right
0      1+2    1     2
1      3+4    3     4
2       20   20  None
3  0.6-1.6  0.6  -1.6

[Program finished]