如何区分人名和源自动词的其他名称

时间:2012-03-05 03:42:58

标签: java nlp stanford-nlp

如何从文本中提取人名?

我为此应用了一些NLP工具包,特别是我使用Stanford NER工具包从文本中提取名称。有了这个,我可以从文本中提取人名,但是当我希望程序提取诸如“程序员”,“讲师”或“工程师”之类的单词时,库无法提取这些名称。有没有办法从文本中提取这些内容?

1 个答案:

答案 0 :(得分:1)

由于“程序员,讲师和工程师”不是命名实体,因此您可能需要维护这些单词的列表。我想你可以从Wordnet中的单词派生关系中获得它们,比如“sing”(动词)和“singer”或“lecture”(动词)和“讲师”(名词)。

SuperSense tagger也可以用作NER,我认为它可以将你提到的那些词标记为“noun.person”,这就是你所需要的。 ArkRef(Java)是一个使用它的共享工具(通过捆绑的supersense标记器的Java端口),并且在那里有一个在线演示,所以你可以检查你的目标单词是否用方括号标记。