在斯坦福NER软件附带的一个示例.prop文件中有两个我不理解的选项:
useDistSim = true
distSimLexicon = /u/nlp/data/pos_tags_are_useless/egw4-reut.512.clusters
有没有人提示DistSim代表什么,以及我在哪里可以找到有关如何使用这些选项的更多文档?
更新:我刚刚发现DistSim意味着分布相似性。我仍然想知道在这种情况下这意味着什么。
答案 0 :(得分:8)
“DistSim”指的是使用基于词类/聚类的特征,使用分布相似性聚类方法(例如,布朗聚类,交换聚类)构建。词类组合相似,语义和/或语法上的词,并允许NER系统更好地概括,包括更好地处理不在NER系统的训练数据中的词。我们的许多分布式模型使用分布相似性聚类特征以及单词身份特征,并且从中获得显着的收益。在斯坦福NER中,有一大堆标志/属性会影响如何解释/使用分布相似性:useDistSim
,distSimLexicon
,distSimFileFormat
,distSimMaxBits
,{{1 },casedDistSim
,numberEquivalenceDistSim
,你需要查看unknownWordDistSimClass
中的代码来解码细节,但在简单的情况下,你只需要前两个,他们需要在训练模型时以及在测试时使用。词典的默认格式只是一个文本文件,其中包含一系列行,其中两个制表符分隔NERFeatureFactory.java
列。群集名称是任意的。