谁有一个很好的概念,可以使用解析器自动检测网站上的地址?
我虽然说的很简单: “包含字母,数字,并且有3到15个字”。
不幸的是,英国,美国,德国,西班牙的地址不同。 谁可以帮我处理代码片段,正则表达式,想法?
谢谢你!答案 0 :(得分:1)
我知道这是一个老问题,但我们可能已经解决了这个问题,至少对于美国地址而言。我们写了address extractor来做到这一点。这不是一个简单的问题,它只适用于REGEX。我们正在利用REGEX查找特定类型的字符串,但也尽可能地限制它以获得最佳候选字符串。一旦我们从输入中提取它们,就会根据我们的地址验证引擎对它们进行检查。 REGEX +验证给出了非常好的结果。没有验证,这只是一个很好的猜测,但你不知道什么时候你是对的,什么时候你错了。