将名字和姓氏识别为一个实体

时间:2014-06-11 06:01:32

标签: nlp tokenize named-entity-recognition

我对自然语言处理很感兴趣。 我想知道是否有一个众所周知的算法,在文本中可以将名字和姓氏确定为一个实体。

例如,如果我们有这个:

Last week John Wayne went to Europe.

我希望有一个标记器,它可以提供:" Last"," Week",John Wayne",""," to& #34;,"欧洲"。

感谢任何帮助。

2 个答案:

答案 0 :(得分:3)

这是命名条目识别的基本标准,大多数NER算法开箱即用(大部分时间)。例如,我通过Stanford NER system's web interface运行你的句子,我得到了:

Last week <PERSON>John Wayne</PERSON> went to <LOCATION>Europe</LOCATION>.

根据您使用的算法,输出的格式可能不同。最常见的格式是IOB

答案 1 :(得分:2)

如果文字中的人物是名人,你可以这样做:

  • 在您的文字上运行Illinois Wikifier:例如,在您的示例中运行它:http://cogcomp.cs.illinois.edu/demo/wikify/?id=25

  • 结合Wikifier链接到同一网页的所有字词;例如,在您的示例中,输出变为如下所示: “上周John_Wayne去了欧洲。” 您也可以将其保存在组合完成的位置。

现在,您可以对文本执行任何操作,例如将其提供给tokenizer!