Question

我在pandas数据框中有数据。我需要提取以“Impact Factor：”开头并以“＆amp;＃”结尾的字符串之间的所有内容。如果内容没有“影响因子：”我想在数据帧的那一行中使用null

这是来自单行的示例数据。

在线保存至EndNote＆amp;＃添加到标记结果列表＆##影响因子：期刊2和引文报告500＆amp;＃其他信息＆amp;＃IDS编号：EW5UR＆amp;＃

我希望数据框中的内容如下所示。期刊2和引文报告500 期刊6和引文报告120 期刊50和引文报告360 期刊30和引文报告120

Answer 1

您好，您可以在这里使用正则表达式：

result = your_df.your_col.apply(lambda x: re.findall('Impact Factor:(.*?)&#',x))

您可能也想要剥离空格，在这种情况下您可以使用：

result = your_df.your_col.apply(lambda x: re.findall('Impact Factor:\s*(.*?)\s*&#',x))