识别文献中的名称和位置

时间:2011-09-24 22:29:15

标签: algorithm

我一直在玩马尔可夫链文本生成和朴素贝叶斯分类器。我想知道是否有办法将这些概念中的任何一个用于识别小说中某些类型的单词。例如。姓氏或地名

我可以通过我的马尔可夫链看到,我发现某些词语往往与某些其他类型的词语相同。例如。经常出现在姓氏前面的''去'往往会出现在地名之前,而姓氏往往会跟随名字。

有没有一种好方法可以编写一个程序,该程序将获取一个示例名称列表,然后浏览大量书籍并识别所有单词,如同那些具有相当准确性的名称?英语是否经常足以让它发挥作用?以前做过吗?这种方法会有名字吗?

谢谢, 安德鲁

1 个答案:

答案 0 :(得分:1)

事实上,名称只有少数模式,例如:

{FirstName}{Space}{Token with big first char}
{BigCharacter}{Dot}{Space}{Token with big first char}
{"Mr" | "Ms"}{Dot}{Space}{Token with big first char}

还有几个。你需要的只是一个名字和简单引擎的字典来捕捉这些模式。这个(以及许多其他事情)有一个很好的框架 - GATE 。它具有非常大的名字字典和用于操纵标记序列的特殊模式语言(JAPE)。您可以直接使用它或只是获取字典并自己实现逻辑。