我想创建一个基于全名来检测性别的模型。 我有两本带有男性和女性的词典。女性的名字。我想开发一个模型来对以前看不见的名字进行分类。
我需要在NER(名称实体识别)过程之后确定性别。这为PERSON实体提供了以下任何一个特征:
我只能在(给定)名字上做男性与女性的决心。该模型只需处理SURNAME,将其归类为 NO_GENDER 。
我知道姓氏可能很吵,但我必须处理它们,因为它们可能是输入的一部分。
答案 0 :(得分:1)
首先,预处理数据:在全名输入中,只保留名称(见下文)。将此应用于未知输入。
我建议你训练一个多级SVM。你已经知道了这三个班级。进行以下培训(标记)数据:
基本上,你训练这个以识别女性,男性和其他一切。
<强>前处理强>
由于名称格式不同,这会给您带来一些麻烦。您可能无法使用复合名称,例如
Bobby Jo male name with female modifier
van der Waal compound surname with male-looking prefix
St. John surname with gendered primary
Haley-Christopher hyphenated surname, genedered
如果您对输入进行预处理,则可能会在Billy Jean St. John
或Marie-Therese von Klaus
中发现正确的分割时遇到一些问题。