我正在开发一个需要我解析非结构化的应用程序 文本。我需要解析名称,地址 - 区域,城市,国家和邮政编码 从中。地址将是印度人。
示例输入: “我是在XYZ公司工作的ABC。 我擅长网页设计,有3年的经验。 我住在马哈拉施特拉邦Pune-411038的kothrud。“
输出: 姓名:ABC 区域:KOTHRUD 城市:PUNE 状态:MAHARASHTRA 邮政编码:411038
我计划使用Apache ConceptMapper来解析城市和州 为此,我将不得不自己建立一个字典集,但我想是的 可以做到。对于邮政编码,我可以使用正则表达式。我被困在如何 解析名称和区域。正则表达式可用于获取名称和区域 小黑客和很多模式,但我想知道是否有任何 更好的解决方案。
我可以查询任何数据库,它会返回地址吗?一世 没有查看谷歌地图/地方,但你能获得地址 与他们轻松解析?
任何意见都将受到高度赞赏。
感谢。