我有一个来自Tika UIMA Annotator的xmi输出,该输出已传递到UIMA Ruta脚本进行进一步处理。我能够成功导入相应的类型系统,并检测到覆盖文本片段的任何MarkupAnnotations。
但是,输入中包含一些MarkupAnnotations,它们的开始和结束值相同(因此,请勿覆盖任何文本)。 RUTA引擎无法识别这些注释。
例如,不会触发以下规则:
MarkupAnnotation.name ==“ img” {-> MARK(IMAGE}};
但是在CAS Viewer中,我看到了很多标记名称都等于“ img”的MarkupAnnotations,并且它们都具有相等的开始和结束属性。
我应该在脚本中添加一些额外的规范来捕获此类注释吗?
答案 0 :(得分:0)
UIMA Ruta(2.6.1)不支持匹配长度为0(开始==结束)的注释。
有多种原因,例如,顺序注释比较麻烦,因为注释可以在其前面并跟随其自身。
免责声明:我是UIMA Ruta的开发人员