Question

我试图将秘鲁名称标记为将名称字段与它们分开。我担心的问题是OpenNLP究竟如何处理秘鲁可能发生的复杂名称，例如Rafael de la Fuente Benavides。 OpenNLP会将整个字符串作为名称还是将de / la / del / los连接器搞砸了？此外，OpenNLP如何确定名称何时完成＆＃34;？由于一些秘鲁的名字确实很长（例如Jose Manuel de los Reyes Gonzalez de Prada y Ulloa），我想知道OpenNLP是否会将其分成2或3个名字＆＃34;。

这样做的目的是能够使用标记化将其分隔为人员数据库的正确字段，例如

Rafael de la Fuente Benavides   ----> First: Rafael Paternal Last:Benavides
Jose Carlos Mariategui La Chira ----> First: Jose Carlos Paternal Last: Mariategui  Maternal Last: Chira

Answer 1

为了正确识别名称，必须训练OpenNLP：您应该提供这样格式的文件（也支持其他格式）：

Sé <START:person> Rafael de la Fuente Benavides <END >, que trabajan en España

培训文件每行必须包含一个句子，每个句子可能包含一个或多个名称：为了表现良好，您需要提供至少15000的模型（根据文档）。

请注意每个标记之前和之后的空格：此标记<START:person>Rafael<END>将被拒绝。

OpenNLP如何处理复杂的西班牙语名称

1 个答案: