问题在于:
假设我们有类似"Some restaurant is located at 750 17th St NW, Washington, DC 20006 and it's opened at 8am"
任务是从这样的字符串中获取地址。切割部分应该是:750 17th St NW, Washington, DC 20006
。但是 - 没有固定的地址格式,也没有关于它的规则。任何对任何地图服务都准确的内容都应被视为地址。它也可以是:
"at 750 17th St NW, Washington, DC 20006 there is some restaurant and it's opened at 8am"
或
"there are many restaurants in Washington, DC"
我的任务是从字符串中获取地址,避免找到不是地址的部分。我很快意识到这个问题非常复杂。我可以连接到一些地理编码API,但我发送的字符串仍然包括其余的句子。
你们对这些问题有什么想法或经验吗?
具体的实施语言在这里不是很重要。
答案 0 :(得分:0)
如果地址在字符串中的位置未知,但地址是格式化的,那么你可以提出一些正则表达式解决方案。
如果地址的格式确实可能会发生变化且正则表达式不够,那么监督学习将是解决方案。