从非结构化文本中解析名称和地址

时间:2011-02-02 11:00:04

标签: parsing street-address

我正在开发一个需要我解析非结构化的应用程序 文本。我需要解析名称,地址 - 区域,城市,国家和邮政编码 从中。地址将是印度人。

示例输入: “我是在XYZ公司工作的ABC。 我擅长网页设计,有3年的经验。 我住在马哈拉施特拉邦Pune-411038的kothrud。“

输出: 姓名:ABC 区域:KOTHRUD 城市:PUNE 状态:MAHARASHTRA 邮政编码:411038

我计划使用Apache ConceptMapper来解析城市和州 为此,我将不得不自己建立一个字典集,但我想是的 可以做到。对于邮政编码,我可以使用正则表达式。我被困在如何 解析名称和区域。正则表达式可用于获取名称和区域 小黑客和很多模式,但我想知道是否有任何 更好的解决方案。

我可以查询任何数据库,它会返回地址吗?一世 没有查看谷歌地图/地方,但你能获得地址 与他们轻松解析?

任何意见都将受到高度赞赏。

感谢。

1 个答案:

答案 0 :(得分:0)

Google Geocoding API可以帮助解决这个问题。如果找不到匹配项,它将返回给定地址的地图坐标或适当的状态代码。