为什么我的正则表达式失败了?

时间:2016-11-01 01:17:44

标签: python regex pandas

感谢您花时间阅读本文。

我使用Python pandas在名为' title'的列上合并两个数据集。在一个数据集中的一些数据在括号中包围的标题单元格中具有附加字符,这导致合并在这些单元格上失败。我尝试使用以下内容删除括号及其包含的值,但合并仍然错过了更新的数据。

数据样本,代码和正则表达式如下。

我假设正则表达式不正确 - 有什么想法吗?

import pandas as pd

data1 = pd.DataFrame({'id': ['a12bcde0'], 'title': ['company_a']})

data2 = pd.DataFrame({'serial_number': ['01a2b345','10ab2030'],'title':['company_a','company_a (123)']}) 

data2['title'].replace(regex=True,inplace=True,to_replace=r"\(.*\)",value=r'')

pd.merge(data1, data2, on='title')

1 个答案:

答案 0 :(得分:2)

您在模式中的左括号前忘记了空格:to_replace=r"\s\(.*\)"