如何以结构化的方式从文档中检索带注释的文本,如下所示。我使用一个句子作为处理单元,这意味着我想从句子中检索特定的文本并将它们放在一起。所以,我已经在GATE中设置了我的注释,并将注释结果保存为内联xml。
所以我输入的xml文件如下所示:
<Document>
<Paragraph>
<text id="100">30.03. Zeraua joins the Otjimbingwe and Omaruru Ovaherero at Samuel’s station at Ongandjira in the upper Swakop valley.</text>
<text id="101">01.04. Von Glasenapp’s unit proceeds in the direction of Otjikuoko without meeting the Tjetjo community.</text>
<text id="102">09.04. The battle of Ongandjira is fought with heavy losses on both sides. The Ovaherero have to give way before a sustained German artillery bombardment commences, and they escape in a northerly direction.</text>
</Paragraph>
<Paragraph>
<text id="200">30.03. Zeraua joins the Otjimbingwe and Omaruru Ovaherero at Samuel’s station at Ongandjira in the upper Swakop valley.</text>
<text id="201">01.04. Von Glasenapp’s unit proceeds in the direction of Otjikuoko without meeting the Tjetjo community.</text>
<text id="202">09.04. The battle of Ongandjira is fought with heavy losses on both sides. The Ovaherero have to give way before a sustained German artillery bombardment commences, and they escape in a northerly direction.</text>
</Paragraph>
</Document>
这是我想要的每个句子的输出结构:
<text id="100">
<Event>Battle of Ongandjira</Event>
<Location>Ongandjira</Location>
<NumberDate>30.03</NumberDate>
<Person>Zeraua</Person>
</text>
这是我在GATE中的注释:
我的内联文件只包含很多混合注释,我无法弄清楚如何按顺序构造它。我已经尝试过Format_Twitter JSON,它也是一团糟。
非常感谢。
答案 0 :(得分:1)
如果我正确理解了您的要求,您应该使用下一种方法(Java代码的抽象描述)。
1)加载带注释的文档。
2)在你的java代码中,按文档顺序获取类型为Sentence的所有注释。
3)在Sentence注释上运行循环并获取Event,Location,NumberDate, 永远句子中的人。
4)对于每个注释(Event,Location,NumberDate,Person)获取文本
5)创建XML