如何从字符串中获取地址?

时间:2015-11-16 12:51:43

标签: parsing geolocation geocoding google-geocoder

问题在于:

假设我们有类似"Some restaurant is located at 750 17th St NW, Washington, DC 20006 and it's opened at 8am"

的字符串

任务是从这样的字符串中获取地址。切割部分应该是:750 17th St NW, Washington, DC 20006。但是 - 没有固定的地址格式,也没有关于它的规则。任何对任何地图服务都准确的内容都应被视为地址。它也可以是:

"at 750 17th St NW, Washington, DC 20006 there is some restaurant and it's opened at 8am"

"there are many restaurants in Washington, DC"

我的任务是从字符串中获取地址,避免找到不是地址的部分。我很快意识到这个问题非常复杂。我可以连接到一些地理编码API,但我发送的字符串仍然包括其余的句子。

你们对这些问题有什么想法或经验吗?

具体的实施语言在这里不是很重要。

1 个答案:

答案 0 :(得分:0)

如果地址在字符串中的位置未知,但地址是格式化的,那么你可以提出一些正则表达式解决方案。

如果地址的格式确实可能会发生变化且正则表达式不够,那么监督学习将是解决方案。