OpenNLP如何处理复杂的西班牙语名称

时间:2014-06-04 20:45:55

标签: tokenize opennlp named-entity-recognition

我试图将秘鲁名称标记为将名称字段与它们分开。我担心的问题是OpenNLP究竟如何处理秘鲁可能发生的复杂名称,例如Rafael de la Fuente Benavides。 OpenNLP会将整个字符串作为名称还是将de / la / del / los连接器搞砸了?此外,OpenNLP如何确定名称何时完成"?由于一些秘鲁的名字确实很长(例如Jose Manuel de los Reyes Gonzalez de Prada y Ulloa),我想知道OpenNLP是否会将其分成2或3个名字"。

这样做的目的是能够使用标记化将其分隔为人员数据库的正确字段,例如

Rafael de la Fuente Benavides   ----> First: Rafael Paternal Last:Benavides
Jose Carlos Mariategui La Chira ----> First: Jose Carlos Paternal Last: Mariategui  Maternal Last: Chira

1 个答案:

答案 0 :(得分:0)

为了正确识别名称,必须训练OpenNLP:您应该提供这样格式的文件(也支持其他格式):

Sé <START:person> Rafael de la Fuente Benavides <END >, que trabajan en España

培训文件每行必须包含一个句子,每个句子可能包含一个或多个名称:为了表现良好,您需要提供至少15000的模型(根据文档)。

请注意每个标记之前和之后的空格:此标记<START:person>Rafael<END>将被拒绝。