我有一组训练句子,我计算了一些浮动特征。在每个句子中,标识两个实体。它们属于' PERSON',' ORGANIZATION' LOCATION'或' OTHER'。我想将这些类型添加到我的特征矩阵(存储浮点变量)。
我的问题是:是否有推荐的方法来添加这些实体类型?
我现在可以想到两种方式:
最佳!
答案 0 :(得分:0)
我建议您使用容易normalized且与其他数据处于同一范围内的内容。
因此,如果所有浮点值都在-1和1之间,我会将"Named Entity Recognition"中的值保持在相同的范围内。
因此,根据您的喜好或为您提供最佳结果,您可以在与浮动的其余部分相同的范围内分配4个值,或者使用包含更多列的二进制结果。
答案 1 :(得分:0)
最后,第二个建议(添加EIGHT列,每个实体类型和每个实体一个,并填充0&1;和1' s)工作正常!