全名性别检测

时间:2017-07-27 12:57:34

标签: machine-learning nlp

我想创建一个基于全名来检测性别的模型。 我有两本带有男性和女性的词典。女性的名字。我想开发一个模型来对以前看不见的名字进行分类。

我需要在NER(名称实体识别)过程之后确定性别。这为PERSON实体提供了以下任何一个特征:

  • 全名(John Travolta)
  • 仅限姓名(约翰)
  • 仅限SURNAME(特拉沃尔塔)

我只能在(给定)名字上做男性与女性的决心。该模型只需处理SURNAME,将其归类为 NO_GENDER

我知道姓氏可能很吵,但我必须处理它们,因为它们可能是输入的一部分。

1 个答案:

答案 0 :(得分:1)

首先,预处理数据:在全名输入中,只保留名称(见下文)。将此应用于未知输入。

我建议你训练一个多级SVM。你已经知道了这三个班级。进行以下培训(标记)数据:

  • NO_GENDER:女孩和男孩名单上的名字
  • FEMALE:仅列出女孩名单上的姓名
  • MALE:仅限男生名单上的名字
  • NO_GENDER:已知的姓氏
  • NO_GENDER:非名称字符串

基本上,你训练这个以识别女性,男性和其他一切。

<强>前处理

由于名称格式不同,这会给您带来一些麻烦。您可能无法使用复合名称,例如

Bobby Jo             male name with female modifier
van der Waal         compound surname with male-looking prefix
St. John             surname with gendered primary
Haley-Christopher    hyphenated surname, genedered

如果您对输入进行预处理,则可能会在Billy Jean St. JohnMarie-Therese von Klaus中发现正确的分割时遇到一些问题。