在coursera nlp视频中,Dan Jurafsky展示了如何从种子开始,在语料库中搜索它们,并提取这些种子实例的特征(尽管他没有说明nlp从业者如何提取这些特征: https://stackoverflow.com/questions/23401313/in-semi-supervised-relation-extraction-how-do-you-create-features-from-seed-exa)
然后他说,语料库中种子的实例算作监督分类器的正例。但有监督的分类器需要积极和消极的例子。当NLP从业者通过远程监督进行这种关系提取时,负面例子来自哪里?答案 0 :(得分:2)
通常,在远程监督中,负面示例生成是一种启发式方法,并且通常依赖于语料库。对于关系提取,通常假设语料库是完整的。因此,对于给定的实体对(a,b)
,语料库中a
和b
之间缺少关系被视为a
和{{{事实上,1}}是无关的。这提供了对b
作为反面例子。
例如,在Jurafsky的论文Distant supervision for relation extraction without labeled data中,作者通过随机选择未出现在任何Freebase关系中的实体对来建立一个名为 (a,b)
的显式关系。请注意,就像正面例子一样,负面例子也可能在远程监督中嘈杂。我引用秒。 6.3同一篇论文:
虽然这些实体对中的一些实际上可能是相关的,但在Freebase数据中被错误地省略了,我们预计平均这些 错误否定将对分类器的性能产生很小的影响。
请注意,本文是从2009年开始的。研究人员很快就发现了“我们期望......效果不大......”这句话。最近关于使用远程监督的关系提取的工作试图克服由我刚刚描述的简单启发法产生的假阴性的不利影响。发生这种情况是因为实际上,知识库(例如Freebase)通常是不完整的。几个例子:
这两篇论文均来自2013年。遗憾的是,对这些方法的更详细解释或分析超出了SO的范围。