我正在尝试提取具有如下文本数据的列中的值:
create date:1953/01/01 | first author:REAGAN RL
如何从列中提取作者姓名并存储在新列中。 我尝试了以下方法:
df.str.extract("first author:(.*?)")
和
authorname=df['EntrezUID'].apply(lambda x:x.split("first author:"))
。第二个工作。
我如何使用regualr表达式实现类似的东西
答案 0 :(得分:1)
你可以这样做:
## sample data
df = pd.DataFrame({'dd':['create date:1953/01/01 | first author:REAGAN RL','create date:1953/01/01 | first author:MEGAN RL']})
## output
df['names'] = df['dd'].str.extract(r'author\:(.*)')
print(df)
dd names
0 create date:1953/01/01 | first author:REAGAN RL REAGAN RL
1 create date:1953/01/01 | first author:MEGAN RL MEGAN RL