从xml

时间:2017-08-06 11:52:48

标签: java xml annotations gate

如何以结构化的方式从文档中检索带注释的文本,如下所示。我使用一个句子作为处理单元,这意味着我想从句子中检索特定的文本并将它们放在一起。所以,我已经在GATE中设置了我的注释,并将注释结果保存为内联xml。

所以我输入的xml文件如下所示:

    <Document>
        <Paragraph>
            <text id="100">30.03. Zeraua joins the Otjimbingwe and Omaruru Ovaherero at Samuel’s station at Ongandjira in the upper Swakop valley.</text>
            <text id="101">01.04. Von Glasenapp’s unit proceeds in the direction of Otjikuoko without meeting the Tjetjo community.</text>
            <text id="102">09.04. The battle of Ongandjira is fought with heavy losses on both sides. The Ovaherero have to give way before a sustained German artillery bombardment commences, and they escape in a northerly direction.</text>
        </Paragraph>
         <Paragraph>
            <text id="200">30.03. Zeraua joins the Otjimbingwe and Omaruru Ovaherero at Samuel’s station at Ongandjira in the upper Swakop valley.</text>
            <text id="201">01.04. Von Glasenapp’s unit proceeds in the direction of Otjikuoko without meeting the Tjetjo community.</text>
            <text id="202">09.04. The battle of Ongandjira is fought with heavy losses on both sides. The Ovaherero have to give way before a sustained German artillery bombardment commences, and they escape in a northerly direction.</text>
        </Paragraph>
    </Document>

这是我想要的每个句子的输出结构:

    <text id="100">
        <Event>Battle of Ongandjira</Event>
        <Location>Ongandjira</Location>
        <NumberDate>30.03</NumberDate>
        <Person>Zeraua</Person>
    </text>

这是我在GATE中的注释:

enter image description here

我的内联文件只包含很多混合注释,我无法弄清楚如何按顺序构造它。我已经尝试过Format_Twitter JSON,它也是一团糟。

非常感谢。

1 个答案:

答案 0 :(得分:1)

如果我正确理解了您的要求,您应该使用下一种方法(Java代码的抽象描述)。

1)加载带注释的文档。

2)在你的java代码中,按文档顺序获取类型为Sentence的所有注释。

3)在Sentence注释上运行循环并获取Event,Location,NumberDate, 永远句子中的人。

4)对于每个注释(Event,Location,NumberDate,Person)获取文本

5)创建XML