在pandas

时间:2018-05-02 03:04:14

标签: python pandas

我正在尝试提取具有如下文本数据的列中的值:

create date:1953/01/01 | first author:REAGAN RL

如何从列中提取作者姓名并存储在新列中。 我尝试了以下方法:

df.str.extract("first author:(.*?)")

authorname=df['EntrezUID'].apply(lambda x:x.split("first author:"))。第二个工作。

我如何使用regualr表达式实现类似的东西

1 个答案:

答案 0 :(得分:1)

你可以这样做:

## sample data
df = pd.DataFrame({'dd':['create date:1953/01/01 | first author:REAGAN RL','create date:1953/01/01 | first author:MEGAN RL']})

## output
df['names'] = df['dd'].str.extract(r'author\:(.*)')

print(df)
                                                dd      names
0  create date:1953/01/01 | first author:REAGAN RL  REAGAN RL
1   create date:1953/01/01 | first author:MEGAN RL   MEGAN RL