我对自然语言处理很感兴趣。 我想知道是否有一个众所周知的算法,在文本中可以将名字和姓氏确定为一个实体。
例如,如果我们有这个:
Last week John Wayne went to Europe.
我希望有一个标记器,它可以提供:" Last"," Week",John Wayne",""," to& #34;,"欧洲"。
感谢任何帮助。
答案 0 :(得分:3)
这是命名条目识别的基本标准,大多数NER算法开箱即用(大部分时间)。例如,我通过Stanford NER system's web interface运行你的句子,我得到了:
Last week <PERSON>John Wayne</PERSON> went to <LOCATION>Europe</LOCATION>.
根据您使用的算法,输出的格式可能不同。最常见的格式是IOB。
答案 1 :(得分:2)
如果文字中的人物是名人,你可以这样做:
在您的文字上运行Illinois Wikifier:例如,在您的示例中运行它:http://cogcomp.cs.illinois.edu/demo/wikify/?id=25
结合Wikifier链接到同一网页的所有字词;例如,在您的示例中,输出变为如下所示: “上周John_Wayne去了欧洲。” 您也可以将其保存在组合完成的位置。
现在,您可以对文本执行任何操作,例如将其提供给tokenizer!