如何在java中有效地解析和标准化复杂的人名

时间:2015-03-05 13:45:45

标签: java parsing linguistics

我想要一种高效灵活的方法来解析人名并标准化其格式。

根据文化可以找到不同格式的名称,可以由不同的部分组成(第一个,最后一个,中间,初始,标题,后缀,前缀,世代......),并且应该预先定义一些名称部分在可配置的值列表中:

例如,名称格式(模式)可以是:

  • 名字像“John Smith”这样的姓氏
  • 姓氏,名字如“史密斯,约翰”
  • 名字中间名,如“John Michael Smith”
  • 名字首字母,如“John M. Smith”
  • 标题名字姓氏如“Dr. John Smith”
  • 标题名字姓氏后缀,如“John Smith II博士” 等等...

例如,预定义的值列表可以是:

  • 对于“标题”部分,值可以是(Dr.,Doctor,Mr.,Mrs。,...)。
  • 对于“后缀”部分,值可以是(第一,第二,第一,第二,第三......) 等等...

因此,我需要一种有效的方法,java中的库或工具来解析不同的名称格式,最后生成标准格式,以便以后在应用程序中使用。此功能是批处理作业的一部分,它应该很快,用户应该能够定义不同的模式和包含固定值的名称部分作为配置。

0 个答案:

没有答案