我正在尝试编写一个公司的详细信息解析器,它可以将以下文本拆分成它的组成部分:
土地和联合系统
总签名管理
Wookey Hole Road
威尔斯
萨默塞特
BA5 1AA
电话:+44(0)1749 682384
传真:+44(0)1749 682235
我遇到的问题是,我怎么能说“总签名管理”实际上并不是地址的一部分?通常,公司将显示其名称“THALES LAND AND JOINT SYSTEM”,第2行通常是地址的第一部分。
在上面的案例中,公司名称后面跟着一个非地址部分,无论如何要说明区别吗?
由于
答案 0 :(得分:0)
您可以根据发生的单词计算地址< - >描述的概率。在这个例子中,很明显:“道路”线比“管理”线更可能成为地址的一部分。
如果非地址部分仅出现在公司名称之后,这应该可以很好地工作。如果可能在文本的某个地方找到非地址部分,那么在没有进一步信息的情况下几乎无法将它们分开。
也许你想看看我昨天问过的similar question。
编辑:您可以根据以前分类的地址部分创建统计模型(您确定它们是地址;)。