从自由格式文本中提取国际街道地址/电话号码

时间:2009-05-22 20:28:25

标签: regex street-address

嘿,伙计们。我正在寻找一些正则表达式,以帮助从自由格式文本(Gmail版)中获取街道地址和电话号码。

给出一些文字:"John, I went to the store today, and it was awesome! Did you hear that they moved to 500 Green St.? ... Give me a call at +14252425424 when you get a chance."

我希望能够退出:

500 Green St.(被视为街道地址)

+14252425424(公认为电话号码)

使这个问题更容易的原因是我不关心解析被拔出的文本。也就是说,我不关心Green是道路的名称,还是425是区号。我只想抓住“看起来像”地址或电话号码的字符串。

不幸的是,这需要尽可能在国际上发挥作用。

任何人都有任何线索?谢谢!

3 个答案:

答案 0 :(得分:1)

电话号码只要您有所有国家代码和号码格式的列表很容易,街道地址我不知道,我可以给你的唯一建议是验证每组字词@ addressdoctor.com

答案 1 :(得分:1)

您可以尝试使用RecogniContact( - > address-parser.com),它会识别邮政地址和电话号码。

答案 2 :(得分:0)

看看Chapter 7 of Dive Into Python。它触及电话号码和街道地址。我相信你可以用这个作为起点。国际部分似乎很艰难。我建议你建立一个初稿,在几个语言环境中尝试,迭代和改进。