我需要从公寓描述中提取街道。我不一定需要数字(不是每个列表都有它),但是我们将不胜感激。
我'解决方案'
1.使用正则表达式。但是在阅读了许多描述之后,我意识到人们经常会忽略特征性的标志,比如在实际的街道名称之前写出“街道”等等
2.创建包含可能的街道名称的列表。因为我知道公寓在哪个城市,我可以从这个城市下载每个街道名称,加载它然后尝试匹配描述中的任何单词与列表中存储的街道(可能是某种哈希表)。但描述可能很长,街道可能只有几个字。那么我可能需要使用this解决方案。描述中的地址也可以有1-2个字符错误输入
3.将此工作移交给第三方地图引擎。从字符串中删除几个单词,将其发送到某个地图引擎(即谷歌地图),如果它没有意义,那么请尝试接下来的几个单词等。
有没有更好的解决方案?
我觉得我必须假设像地址这样的东西总是正确输入等等,否则复杂性会高得令人无法接受。
编辑:
编程语言 - 我把它作为一般性问题,不是语言特有的。但我正在使用Python
字符串格式 - 没有确切的字符串格式,因为每个人都按自己的意愿写出描述。通常本地化在一开始就是某个地方,但情况并非总是如此
制作不同的格式 - 我不能,因为我正在从不同的网站上抓取这些数据。