我试图将秘鲁名称标记为将名称字段与它们分开。我担心的问题是OpenNLP究竟如何处理秘鲁可能发生的复杂名称,例如Rafael de la Fuente Benavides。 OpenNLP会将整个字符串作为名称还是将de / la / del / los连接器搞砸了?此外,OpenNLP如何确定名称何时完成"?由于一些秘鲁的名字确实很长(例如Jose Manuel de los Reyes Gonzalez de Prada y Ulloa),我想知道OpenNLP是否会将其分成2或3个名字"。
这样做的目的是能够使用标记化将其分隔为人员数据库的正确字段,例如
Rafael de la Fuente Benavides ----> First: Rafael Paternal Last:Benavides
Jose Carlos Mariategui La Chira ----> First: Jose Carlos Paternal Last: Mariategui Maternal Last: Chira
答案 0 :(得分:0)
为了正确识别名称,必须训练OpenNLP:您应该提供这样格式的文件(也支持其他格式):
Sé <START:person> Rafael de la Fuente Benavides <END >, que trabajan en España
培训文件每行必须包含一个句子,每个句子可能包含一个或多个名称:为了表现良好,您需要提供至少15000的模型(根据文档)。
请注意每个标记之前和之后的空格:此标记<START:person>Rafael<END>
将被拒绝。