使用Python 3中的正则表达式删除电话号码

时间:2018-06-12 06:48:11

标签: python regex text-analysis

我正在尝试从使用tika解析的一堆文档中删除电话号码,但我没有成功。

Here is a screenshot采取了{p> regex101 validator。如您所见,电话号码被跳过。

文本格式的相同示例如下:

  

“这里的东西

     

和这里的东西9,但是(我也有一些东西),123456,大家好!

     

+39.1234.325636 +39.321.1234567

     性别男性|出生日期16/12/1927 |国籍意大利语

     

一些东西“

这是我的正则表达式(我不是这个领域的专家):

(\(00\d{2}\)|\(\+\d{2}\)|00\d{2}|\+\d{2})[\. ]??3\d{2}[\. \-]??\d{2,4}[\. \-]??\d{2,4}$

请注意,+ 39(或0039)是固定的,第二个电话号码中的前3个也是固定的。

你有什么建议吗? 非常感谢。

2 个答案:

答案 0 :(得分:0)

根据您的输入,这适用于regex101验证器: (\+|00)39\.[0-9]+\.[0-9]+

答案 1 :(得分:0)

这是另一个正则表达式/((?:\+39)|(?:0039))+[0-9. ]+/gm。这将有助于找到您的电话号码

Demo