应用错误收集

时间：2010-11-07 06:41:52

标签： nlp

我正在尝试编写一个公司的详细信息解析器，它可以将以下文本拆分成它的组成部分：

土地和联合系统

总签名管理

Wookey Hole Road

威尔斯

萨默塞特

BA5 1AA

电话：+44（0）1749 682384

传真：+44（0）1749 682235

我遇到的问题是，我怎么能说“总签名管理”实际上并不是地址的一部分？通常，公司将显示其名称“THALES LAND AND JOINT SYSTEM”，第2行通常是地址的第一部分。

在上面的案例中，公司名称后面跟着一个非地址部分，无论如何要说明区别吗？

由于

答案 0 :(得分：0)

您可以根据发生的单词计算地址＆lt; - ＆gt;描述的概率。在这个例子中，很明显：“道路”线比“管理”线更可能成为地址的一部分。

如果非地址部分仅出现在公司名称之后，这应该可以很好地工作。如果可能在文本的某个地方找到非地址部分，那么在没有进一步信息的情况下几乎无法将它们分开。

也许你想看看我昨天问过的similar question。

编辑：您可以根据以前分类的地址部分创建统计模型（您确定它们是地址;）。