斯坦福NER prop文件含义DistSim

时间:2013-07-18 12:59:04

标签: nlp stanford-nlp named-entity-recognition

在斯坦福NER软件附带的一个示例.prop文件中有两个我不理解的选项:

useDistSim = true
distSimLexicon = /u/nlp/data/pos_tags_are_useless/egw4-reut.512.clusters

有没有人提示DistSim代表什么,以及我在哪里可以找到有关如何使用这些选项的更多文档?

更新:我刚刚发现DistSim意味着分布相似性。我仍然想知道在这种情况下这意味着什么。

1 个答案:

答案 0 :(得分:8)

“DistSim”指的是使用基于词类/聚类的特征,使用分布相似性聚类方法(例如,布朗聚类,交换聚类)构建。词类组合相似,语义和/或语法上的词,并允许NER系统更好地概括,包括更好地处理不在NER系统的训练数据中的词。我们的许多分布式模型使用分布相似性聚类特征以及单词身份特征,并且从中获得显着的收益。在斯坦福NER中,有一大堆标志/属性会影响如何解释/使用分布相似性:useDistSimdistSimLexicondistSimFileFormatdistSimMaxBits,{{1 },casedDistSimnumberEquivalenceDistSim,你需要查看unknownWordDistSimClass中的代码来解码细节,但在简单的情况下,你只需要前两个,他们需要在训练模型时以及在测试时使用。词典的默认格式只是一个文本文件,其中包含一系列行,其中两个制表符分隔NERFeatureFactory.java列。群集名称是任意的。