具有或不具有标点符号的依赖性解析器评估

时间:2015-10-26 11:12:55

标签: dependencies nlp stanford-nlp

我想评估依赖解析器,考虑标点符号而不考虑标点符号。如果我不想考虑标点符号,我该如何定义输入数据?我应该使用相同的输入数据(带标点符号的普通句子)作为输入,解析器定义所有包含标点符号的依赖项。在评估期间,我排除了与句点和逗号等相关的所有依赖项。或者我应该删除输入句子中的标点符号? 为什么在评估依赖解析器时通常不包括标点符号(CONLL-X)?

1 个答案:

答案 0 :(得分:3)

无论评估细节如何,输入数据都应定义相同。 在标准CoNLL评估中,我们根本不计算通向标点符号的弧。 ("标点符号"在标准eval中为`` '' . , :。(CoreNLP reference))

关于"为什么,"我没有一个非常令人满意的答案..这里有一些猜测:

  1. SOTA解析器不太擅长确定标点符号依赖关系(true)。如果我们包含标点符号,则数字会大幅下降。标点符号性能的变化可能会掩盖自然语言解析的真正改进,这是不可取的。
  2. 标点符号依赖性有点难以防御,我认为* - 当前数据集中存在的只是一种约定,但其他标点符号分析也可能获得许可。 (将此与例如amod依赖关系进行比较,鉴于我们同意注释方案,这种依赖关系确实无法解决。)
  3. `*我不是依赖语法的专家,所以请不要太认真地对待我:)