组织细节识别

时间:2010-11-07 06:41:52

标签: nlp

我正在尝试编写一个公司的详细信息解析器,它可以将以下文本拆分成它的组成部分:

  

土地和联合系统

     

总签名管理

     

Wookey Hole Road

     

威尔斯

     

萨默塞特

     

BA5 1AA

     

电话:+44(0)1749 682384

     

传真:+44(0)1749 682235

我遇到的问题是,我怎么能说“总签名管理”实际上并不是地址的一部分?通常,公司将显示其名称“THALES LAND AND JOINT SYSTEM”,第2行通常是地址的第一部分。

在上面的案例中,公司名称后面跟着一个非地址部分,无论如何要说明区别吗?

由于

1 个答案:

答案 0 :(得分:0)

您可以根据发生的单词计算地址< - >描述的概率。在这个例子中,很明显:“道路”线比“管理”线更可能成为地址的一部分。

如果非地址部分仅出现在公司名称之后,这应该可以很好地工作。如果可能在文本的某个地方找到非地址部分,那么在没有进一步信息的情况下几乎无法将它们分开。

也许你想看看我昨天问过的similar question

编辑:您可以根据以前分类的地址部分创建统计模型(您确定它们是地址;)。