如何将内联注释标签集成到备注注释中?

时间:2015-11-11 15:42:04

标签: python annotations gate

我正在GATE平台上做一些自定义注释。假设我在下面写了一个句子。

原始文本

  麦当劳是中文的“麦当劳”。所以“我想要一些麦当劳”是中文的“我想吃麦当劳”。

使用GATE,我使用“Entity”标记标记了上述句子的4个特定标记( McDonald's 麦当劳)。 GATE会根据下面的字符位置自动生成XML支持注释文件。

<TextWithNodes>the <Node id="4"/>McDonald's<Node id="14"/> is '<Node id="19"/>麦当劳<Node id="22"/>'in Chinese. so "I want some <Node id="51"/>McDonald's<Node id="61"/>" is "我想吃<Node id="70"/>麦当劳<Node id="73"/>" in Chinese.</TextWithNodes>
<!-- The default annotation set -->

<AnnotationSet>
<Annotation Id="0" Type="Entity" StartNode="19" EndNode="22">
</Annotation>
<Annotation Id="1" Type="Entity" StartNode="4" EndNode="14">
</Annotation>
<Annotation Id="2" Type="Entity" StartNode="70" EndNode="73">
</Annotation>
<Annotation Id="3" Type="Entity" StartNode="51" EndNode="61">
</Annotation>
</AnnotationSet>

</GateDocument>

内联POS标记

接下来,我想要在Python上标记原始文本。原始文本作为输入,标记器将返回如下标记的句子。

  

麦当劳/ NN是/ PP'麦当劳'/ NN in / PP Chinese / NN ./PW

问题在于我想将此POS标记结果添加到GATE对等注释文件中,该文件包括标记有起始偏移和结束偏移的每个POS标记。例如,

<Annotation Id="4" POS="DT" StartNode="0" EndNode="2">
<Annotation Id="5" POS="NN" StartNode="4" EndNode="14">
…
</Annotation>

我更倾向于坚持间接注释而不是内联注释的原因是我仍然希望使用GATE来方便注释间任务(手动标记“实体”标签),但不幸的是中国的POS标记器无法在GATE上实现。并且不希望首先执行POS标记并稍后在GATE上进行手动注释,因为不同的POS标记符会给出不同的POS标记结果,这可能会弄乱原始文本的偏移量。 请任何人提供一些提示,如何将内联POS标记结果集成到XML支持注释中,或者在Python上修改基于字符位置的支持注释的有用工具。

0 个答案:

没有答案