我正在从Java Maven项目动态执行ruta脚本。该脚本注释HTML文件,并进一步处理输出。现在,coveredText包含HTML标签,如下所示;
(a + b)< SUP> 2< / SUP> ==>标记为公式
但我希望它为
(a + b)2 ==>将标题作为另一个注释捕获并稍后处理。
如何达到预期的解决方案?
答案 0 :(得分:1)
在UIMA中,文档文本是静态的。如果要更改文本,则需要创建新视图/ CAS。在ruta中,有三个组件可以创建带有修改的文档文本的cas:HtmlConverter,RutaModifier,RutaCutter。如果您想在同一个管道中进一步处理它,您需要一个带沙发映射的聚合AE(或沙发感知分析引擎)。
有关于这些analysis engines及其usage的一些文档。还有example project这些规则和StackOverflow question讨论了一些可能的问题。有关沙发映射的信息可以在UIMA documentation
中找到(免责声明:我是UIMA Ruta的开发人员)