替换单词和字符串熊猫

时间:2019-08-26 16:56:49

标签: python regex python-3.x string pandas

    dataframe = pd.DataFrame({'Date':['This 1A1619 person BL171111 the A-1-24',
                                  'dont Z112 but NOT 1-22-2001',
                                  'mix: 1A25629Q88 or A13B ok'], 
                          'IDs': ['A11','B22','C33'],
                          }) 

           Date                                 IDs
0   This 1A1619 person BL171111 the A-1-24      A11
1   dont Z112 but NOT 1-22-2001                 B22
2   mix: 1A25629Q88 or A13B ok                  C33

我上面有数据框。我的目标是替换所有不带连字符-的混合单词/数字组合,例如1A1619IBL171111A13B,但不包含字母为1-22-2001的{​​{1}}或A-1-24。我试图通过identify letter/number combinations using regex and storing in dictionary

使用以下代码
M

但是我得到了这个输出

dataframe['MixedNum'] = dataframe['Date'].str.replace(r'(?=.*[a-zA-Z])(\S+\S+\S+)','M') 

当我真的想要此输出时

                          Date              IDs     MixedNum
0   This 1A1619 person BL171111 the A-1-24  A11     M M M M M M M
1   dont Z112 but NOT 1-22-2001             B22     M M M M 1-22-2001
2   mix: 1A25629Q88 or A13B ok              C33     M M or M ok

我也尝试过这里建议的正则表达式,但对我也没有用 Regex replace mixed number+strings

有人可以帮我修改我的正则表达式吗? Date IDs MixedNum 0 This 1A1619 person BL171111 the A-1-24 A11 This M person M the A-1-24 1 dont Z112 but NOT 1-22-2001 B22 dont M but NOT 1-22-2001 2 mix: 1A25629Q88 or A13B ok C33 mix: M or M ok

1 个答案:

答案 0 :(得分:4)

您可以使用

pat = r'(?<!\S)(?:[a-zA-Z]+\d|\d+[a-zA-Z])[a-zA-Z0-9]*(?!\S)'
dataframe['MixedNum'] = dataframe['Date'].str.replace(pat, 'M')

输出:

>>> dataframe
                                     Date  IDs                    MixedNum
0  This 1A1619 person BL171111 the A-1-24  A11  This M person M the A-1-24
1             dont Z112 but NOT 1-22-2001  B22    dont M but NOT 1-22-2001
2              mix: 1A25629Q88 or A13B ok  C33              mix: M or M ok

模式详细信息

  • (?<!\S)-空格或字符串开头应紧邻当前位置
  • (?:[a-zA-Z]+\d|\d+[a-zA-Z])-
    • [a-zA-Z]+\d-1个以上的字母和一个数字
    • |-或
    • \d+[a-zA-Z]-1个以上的数字和一个字母
  • [a-zA-Z0-9]*-0个以上的数字或字母
  • (?!\S)-空格或字符串结尾应立即跟随当前位置。