比较GATE中不同的NER系统

时间:2015-02-26 20:37:01

标签: annotations schema gate

我是GATE的新手。我试图分析各种语料库中不同工具的性能。 问题是diff工具或语料库QA工具要求注释集相同 - 即使区分大小写。实际上,每个系统都有自己的架构并生成不同的标签。例如:一个系统中的组织是另一个系统中的组织。

有没有办法规范化这些模式,以便能够在不同的系统之间进行比较?

1 个答案:

答案 0 :(得分:1)

在这种情况下(重命名,添加空注释集,......)我建议使用语料库的导出XML:

Rightclick on corpus -> Save as ... -> GATE XML

如果您查看导出的文件,您会看到文件末尾的注释集(在实际数据之后),如下所示:

... data ...
</TextWithNodes>

<AnnotationSet Name="myAnnotationSet">
  <Annotation Id="1" Type="AnnotationName" StartNode="11" EndNode="111">
    <Feature>
      <Name className="java.lang.String">feature-key</Name>
      <Value className="java.lang.String">feature-value</Value>
    </Feature>
    ...
  </Annotation>
  ...
</AnnotationSet>
...

只需更换您需要的任何东西,例如与

find . -name '*.xml' -exec sed -i 's/\>feature-key</>new-key</g' "{}" \;

(假设短语>feature-key<在文档中没有其他地方)或者您最喜欢的文本存在者并再次重新导入语料库

Rightclick on an (empty) corpus -> populate