Question

我在数据框中有很多字符串，例如：

adrianos ristorante 2930 beverly glen circle los angeles 310475 9807 italian

我想输入电话号码后的所有单词/字符。我拥有用于获取电话号码和空格之后的正则表达式（([0-9]{6}\s[0-9]{4})\s）。我想要的是这之后的所有角色。在这种情况下，它是italian，但可能类似于asian fusion或indian and thai。

Answer 1

在熊猫中，您可以使用

[0-9]{6}\s[0-9]{4}\s+(.+)
                    ^^^^^

代码看起来像

df['col'].str.extract('[0-9]{6}\s[0-9]{4}\s+(.+)')

请注意，应使用捕获组(...)包装需要提取的部分。参见Pandas reference：

拍子：字符串

带有捕获组的正则表达式模式

Answer 2

您可以做（在记事本++中）：

查找内容：（。）（[0-9] {6} \ s [0-9] {4}）\ s（。）替换为：$ 3

$ 3给出第三个参数，它是匹配电话号码之后的所有内容。

Answer 3

使用以下正则表达式： /([0-9]{6}\s[0-9]{4})\s(.*$)/m

在第二个捕获组中，您将在电话号码之后直到行尾都有任何内容（如果要在字符串末尾之前得到所有内容，可以省略m标志。< / p>

Answer 4

您可以在正后方使用

(?<=[0-9]{6}\s[0-9]{4}\s).*