字符串列表中的模式匹配,在pandas中创建新列

时间:2018-08-28 20:50:32

标签: python regex pandas

我有一个熊猫数据框,其格式如下:

id,product_name_extract
1,00012CDN
2,14311121NDC
3,NDC37ba
4,47CD27

我还有一个要匹配的产品代码列表(不幸的是,我必须进行NLP提取,因此这不是一个干净的匹配),然后使用匹配的列表值创建一个新列:

product_name = ['12CDN','21NDC','37ba','7CD2']

id,product_name_extract,product_name_mapped
1,00012CDN,12CDN
2,14311121NDC,21NDC
3,NDC37ba,37ba
4,47CD27,7CD2

我不太担心会发生碰撞。

如果我只需要使用包含和列表值与“ |”串联的True / False指示符,这将很容易进行交替,但现在我对如何创建完全匹配的列值有些困惑。任何提示或技巧都表示赞赏!

1 个答案:

答案 0 :(得分:4)

由于您不必担心冲突,因此可以使用product_name运算符加入|列表,并将其用作正则表达式:

df['product_name_mapped'] = (df.product_name_extract.str
                             .findall('|'.join(product_name))
                             .str[0])

结果:

>>> df
   id product_name_extract product_name_mapped
0   1             00012CDN               12CDN
1   2          14311121NDC               21NDC
2   3              NDC37ba                37ba
3   4               47CD27                7CD2