我正在尝试从使用tika解析的一堆文档中删除电话号码,但我没有成功。
Here is a screenshot采取了{p> regex101 validator。如您所见,电话号码被跳过。文本格式的相同示例如下:
“这里的东西
和这里的东西9,但是(我也有一些东西),123456,大家好!
+39.1234.325636 +39.321.1234567
性别男性|出生日期16/12/1927 |国籍意大利语一些东西“
这是我的正则表达式(我不是这个领域的专家):
(\(00\d{2}\)|\(\+\d{2}\)|00\d{2}|\+\d{2})[\. ]??3\d{2}[\. \-]??\d{2,4}[\. \-]??\d{2,4}$
请注意,+ 39(或0039)是固定的,第二个电话号码中的前3个也是固定的。
你有什么建议吗? 非常感谢。
答案 0 :(得分:0)
根据您的输入,这适用于regex101验证器:
(\+|00)39\.[0-9]+\.[0-9]+
答案 1 :(得分:0)
这是另一个正则表达式/((?:\+39)|(?:0039))+[0-9. ]+/gm
。这将有助于找到您的电话号码