查找注释类型是否为涵盖文本的一部分

时间:2016-08-18 09:27:39

标签: uima ruta

示例输入文件:

<p class="Head1"><a name="para1">Sections 87-89</a></p>
some text
<p class="Head2"><a name="para2">Sections 90-92</a></p>
some text
<p class="ParaFL"><a name="para3">Some Text1</a></p>
<p class="ParaFirstLineInd"><a name="para4">Some Text2</a></p>

例如,从示例输入文件中,如果我将“87-89节和90-92节”注释为Head1“。现在我想比较注释类型(Head1)与其类类型(class =”Head1“) ,class =“Head”)。如果注释类型不等于class,那么我想为相应的注释类型设置一个“类更改”的功能。类似地,“Some Text1”和“Some Text2”注释为ParaFL(注释类型)。

1 个答案:

答案 0 :(得分:0)

这取决于所需信息的表示方式。我假设类信息由Ruta中的HtmlTypeSystem表示。

为了解决这个问题,Ruta(2.4.0)中缺少两种语言元素。主要问题是html标签的属性信息存储在两个独立的数组中,并且Ruta中没有选项可以共同迭代它们。第二个是将类型自动装箱到字符串。

我建议创建一个分析引擎(也可以在Ruta脚本中执行),该引擎使用包含所需信息的一个字符串功能创建新注释。然后,您可以将注释与特征值进行比较。自动装箱不会转换短类型名称。我会使用相应的类型/类值为注释类型添加一个功能。然后,您可以比较特征值。