评估具有注释数据的NLP分类器

时间:2017-08-02 05:41:28

标签: annotations nlp classification evaluation

如果我们想要使用两个注释器注释的数据来评估NLP应用程序的分类器,并且它们没有完全同意注释,那么该过程如何? 也就是说,如果我们应该将分类器输出与注释器同意的数据部分进行比较?或者只是其中一个注释器数据?或者他们两个分开然后计算平均值?

1 个答案:

答案 0 :(得分:0)

在注释者之间进行多数投票很常见。抛出分歧也是如此。

Here是关于这个主题的博客文章:

  

假设我们有一堆注释器,我们对项目没有完全一致。我们做什么?嗯,在实践中,机器学习的证据倾向于(1)在没有协议的情况下丢弃示例(例如,RTE证据,一些生物创造命名的实体描述等),或者(2)使用多数标签(其他一切我)了解)。无论哪种方式,我们通过将标签减少到人为的确定性来丢弃大量信息。你可以通过模拟很容易地看到这一点,而Raykar等人。用真实数据显示它。

什么是适合你的,在很大程度上取决于你的数据以及注释者如何不同意;对于初学者,为什么不只使用他们同意的项目,看看然后将模型与他们不同意的模型进行比较?