我是GATE的新手。我试图分析各种语料库中不同工具的性能。 问题是diff工具或语料库QA工具要求注释集相同 - 即使区分大小写。实际上,每个系统都有自己的架构并生成不同的标签。例如:一个系统中的组织是另一个系统中的组织。
有没有办法规范化这些模式,以便能够在不同的系统之间进行比较?
答案 0 :(得分:1)
在这种情况下(重命名,添加空注释集,......)我建议使用语料库的导出XML:
Rightclick on corpus -> Save as ... -> GATE XML
如果您查看导出的文件,您会看到文件末尾的注释集(在实际数据之后),如下所示:
... data ...
</TextWithNodes>
<AnnotationSet Name="myAnnotationSet">
<Annotation Id="1" Type="AnnotationName" StartNode="11" EndNode="111">
<Feature>
<Name className="java.lang.String">feature-key</Name>
<Value className="java.lang.String">feature-value</Value>
</Feature>
...
</Annotation>
...
</AnnotationSet>
...
只需更换您需要的任何东西,例如与
find . -name '*.xml' -exec sed -i 's/\>feature-key</>new-key</g' "{}" \;
(假设短语>feature-key<
在文档中没有其他地方)或者您最喜欢的文本存在者并再次重新导入语料库
Rightclick on an (empty) corpus -> populate