正则表达式:赛后采取一切措施

时间:2018-07-03 12:33:21

标签: python regex pandas

我在数据框中有很多字符串,例如:

adrianos ristorante 2930 beverly glen circle los angeles 310475 9807 italian

我想输入电话号码后的所有单词/字符。我拥有用于​​获取电话号码和空格之后的正则表达式(([0-9]{6}\s[0-9]{4})\s)。我想要的是这之后的所有角色。在这种情况下,它是italian,但可能类似于asian fusionindian and thai

4 个答案:

答案 0 :(得分:2)

在熊猫中,您可以使用

[0-9]{6}\s[0-9]{4}\s+(.+)
                    ^^^^^

代码看起来像

df['col'].str.extract('[0-9]{6}\s[0-9]{4}\s+(.+)')

请注意,应使用捕获组(...)包装需要提取的部分。参见Pandas reference

  

拍子字符串

     

带有捕获组的正则表达式模式

答案 1 :(得分:0)

您可以做(在记事本++中):

查找内容:(。)([0-9] {6} \ s [0-9] {4})\ s(。) 替换为:$ 3

$ 3给出第三个参数,它是匹配电话号码之后的所有内容。

答案 2 :(得分:0)

使用以下正则表达式: /([0-9]{6}\s[0-9]{4})\s(.*$)/m

在第二个捕获组中,您将在电话号码之后直到行尾都有任何内容(如果要在字符串末尾之前得到所有内容,可以省略m标志。< / p>

答案 3 :(得分:0)

您可以在正后方使用

(?<=[0-9]{6}\s[0-9]{4}\s).*

Regex101