如何忽略来自ruta输出或来自JCas的MARKUP?

时间:2016-06-01 18:45:56

标签: maven uima ruta

我正在从Java Maven项目动态执行ruta脚本。该脚本注释HTML文件,并进一步处理输出。现在,coveredText包含HTML标签,如下所示;

(a + b)< SUP> 2< / SUP> ==>标记为公式

但我希望它为

(a + b)2 ==>将标题作为另一个注释捕获并稍后处理。

如何达到预期的解决方案?

1 个答案:

答案 0 :(得分:1)

在UIMA中,文档文本是静态的。如果要更改文本,则需要创建新视图/ CAS。在ruta中,有三个组件可以创建带有修改的文档文本的cas:HtmlConverter,RutaModifier,RutaCutter。如果您想在同一个管道中进一步处理它,您需要一个带沙发映射的聚合AE(或沙发感知分析引擎)。

有关于这些analysis engines及其usage的一些文档。还有example project这些规则和StackOverflow question讨论了一些可能的问题。有关沙发映射的信息可以在UIMA documentation

中找到

(免责声明:我是UIMA Ruta的开发人员)