根据我的理解,远程监督是指定一个段落(通常是一个句子)的单个词试图传达的概念的过程。
例如,数据库维护结构化关系concerns( NLP, this sentence).
我们的远程监督系统将把句子作为输入:"This is a sentence about NLP."
基于这句话,它将识别实体,因为作为预处理步骤,句子将通过命名实体识别器NLP
& this sentence
。
由于我们的数据库认为NLP
和this sentence
与concern(s)
的关联相关,因此它会将输入句子标识为表达关系Concerns(NLP, this sentence)
。
我的问题有两个:
1)有什么用?是后来我们的系统可能会在That sentence is about OPP
这样的“野性”中看到一个句子,并意识到它看起来与之前类似,从而实现了concerns(OPP, that sentence).
的新颖关系,仅基于单词/个体代币?
2)是否考虑到了句子的实际用语?动词'是'和副词'关于',例如,实现(通过WordNet或其他一些上下文系统),这在某种程度上类似于高阶概念“关注”?
是否有人使用某些代码生成我可以查看的远程监控系统,即交叉引用KB的系统(如Freebase)和语料库(如NYTimes),并生成远程监管数据库?我认为这将有助于澄清我对远程监督的看法。
答案 0 :(得分:7)
RE 1)是的,这是完全正确的。最后,我们想要的是一个分类器,它在文本中作为输入文本和一对实体提及,并告诉我们该句子中这些实体之间的关系。远程监督是使用已知知识库中的“远程监督”来模拟此训练数据的一种方式。但是,最终目标与大多数机器学习任务相同:概括为新句子。
RE 2)当然!远程监督仅适用于训练数据的生成方式[1]。一旦你假设了远程监督,你剩下的就是(句子,relation_for_sentence)对的语料库,然后你提取句子上所有常用的NLP特征。
[1]对于第一近似 - 存在“远程监督”模型(如MultiR和MIML-RE),它们不直接生成假训练数据,而是间接地将监督纳入训练过程本身。但是,即使在这些中,潜变量模型中有一个因子相当于每个句子的分类,而且只是输出变量是潜在的而不是像香草远程监督那样天真地“观察”。
答案 1 :(得分:1)
根据我现在的理解 - 远程监督的真正价值在于我们可以使用它来注释大型语料库,而无需手动考虑每个句子 - 因为这在人员时间方面非常昂贵 - 所以最后一些句子中被认可的关系将是错误的 - 但它有希望"非常好" ...这在一些应用中很有用 - 例如......学者们互相竞争以试图获得更好的在这个愚蠢的任务和其他事情上得分......(欢迎举例)