我有一些关于UIMA Ruta TextRuler的问题。
是否有可能(我认为应该是)在Eclipse GUI之外使用TextRuler?如果是这样,您是否可以提供一个在GUI之外调用它的示例,其中包含以下参数(因为它们与TextRuler提供给GUI的相同):
其次,在Eclipse GUI的(最新发布版本)中,有没有办法查看规则生成或的进度,以重置运行的规则生成方法,一旦看起来就停止它们遇到错误?有时我会启动它并且只是停留在" MethodsRunning ..."使用"加载AE"在每个分析引擎旁边但没有CPU利用率。
第三,Eclipse GUI中是否有任何方法可以将更多CPU资源专用于提取过程或以其他方式加速TextRuler生成的执行?似乎最大利用率约为25%,因此有足够的CPU资源可用(我不知道它是否仅限于单核)。
最后,Ruta TextRuler还有其他资源可以在Ruta文档之外在线获得吗?我很难通过TextRuler上的任何其他材料来获取并希望了解更多信息。特别是我想了解更多关于每个学习模型的参数化的信息。
答案 0 :(得分:1)
不幸的是,现在不可能在Eclipse之外使用Ruta TextRuler(UIMA Ruta 2.3.1)。这是一个悬而未决的问题,但从来没有高度优先:UIMA-2705
TextRuler框架通常维护得不好,文档也不多。还有一个关于如何启动和运行示例项目的部分:TextRuler HowTo
附加数据文件夹是规则学习算法的配置参数,需要的数据不仅仅是黄金标准。现在,这只是TraBaL算法。这里,带注释的输入xmi文件位于该文件夹中,其中包含错误的注释。该算法尝试学习校正规则,以便将这些注释转换为训练数据文件夹中给出的金标准注释。
绝对和相对进度取决于配置的算法。存在用于算法的中间步骤的进度信息。通常应该可以停止执行算法。你描述的行为听起来像一个bug。当我找到时间时,我会看看它。
目前不支持并行化规则学习算法。如果选择了多个算法,它们将在不同的线程中执行。
ruta文档是我所知道的主要信息来源。当然,文档中提到的算法的出版物包含有关算法本身的更多详细信息。还有关于TextRuler的旧出版物。这些参数通常是论文中描述的原始算法参数的直接翻译。
免责声明:我是UIMA Ruta的开发者