我正在使用 TokenNameFinderTrainer 训练我的实体识别器模型。作为自定义功能生成的一部分,我正在尝试使用 word2vec 模型。 我将模型放在另一个资源目录中,该目录通过-featuregen参数添加了XML自定义特征生成器。
训练模型后,我测试了它的实体识别能力。 对于短语“我喜欢超级跑车” ,可以将超级跑车检测为实体。 现在根据word2vec,“不喜欢”是与“喜欢”类似的词,因此,模型还应将超级跑车作为短语“ <我>不喜欢超级跑车”的实体来检测。但事实并非如此。
我不确定这是应该工作的方式还是我对word2vec的假设是否正确。 如果有人能解释word2vec与TokenNameFinder一起工作的确切方式,因为我在任何地方都找不到合适的文档。