在Eclipse GUI

时间:2016-01-20 16:20:48

标签: uima ruta

我有一些关于UIMA Ruta TextRuler的问题。

是否有可能(我认为应该是)在Eclipse GUI之外使用TextRuler?如果是这样,您是否可以提供一个在GUI之外调用它的示例,其中包含以下参数(因为它们与TextRuler提供给GUI的相同):

  • 培训数据文件夹
  • 其他数据文件夹(这是什么?
  • 测试数据文件夹
  • 评估测试数据
  • 预处理脚本文件
  • 跳过预处理脚本文件
  • 尝试提取的信息类型
  • 已过滤的要素类型
  • 运行方法

其次,在Eclipse GUI的(最新发布版本)中,有没有办法查看规则生成的进度,以重置运行的规则生成方法,一旦看起来就停止它们遇到错误?有时我会启动它并且只是停留在" MethodsRunning ..."使用"加载AE"在每个分析引擎旁边但没有CPU利用率。

第三,Eclipse GUI中是否有任何方法可以将更多CPU资源专用于提取过程或以其他方式加速TextRuler生成的执行?似乎最大利用率约为25%,因此有足够的CPU资源可用(我不知道它是否仅限于单核)。

最后,Ruta TextRuler还有其他资源可以在Ruta文档之外在线获得吗?我很难通过TextRuler上的任何其他材料来获取并希望了解更多信息。特别是我想了解更多关于每个学习模型的参数化的信息。

1 个答案:

答案 0 :(得分:1)

不幸的是,现在不可能在Eclipse之外使用Ruta TextRuler(UIMA Ruta 2.3.1)。这是一个悬而未决的问题,但从来没有高度优先:UIMA-2705

TextRuler框架通常维护得不好,文档也不多。还有一个关于如何启动和运行示例项目的部分:TextRuler HowTo

附加数据文件夹是规则学习算法的配置参数,需要的数据不仅仅是黄金标准。现在,这只是TraBaL算法。这里,带注释的输入xmi文件位于该文件夹中,其中包含错误的注释。该算法尝试学习校正规则,以便将这些注释转换为训练数据文件夹中给出的金标准注释。

绝对和相对进度取决于配置的算法。存在用于算法的中间步骤的进度信息。通常应该可以停止执行算法。你描述的行为听起来像一个bug。当我找到时间时,我会看看它。

目前不支持并行化规则学习算法。如果选择了多个算法,它们将在不同的线程中执行。

ruta文档是我所知道的主要信息来源。当然,文档中提到的算法的出版物包含有关算法本身的更多详细信息。还有关于TextRuler的旧出版物。这些参数通常是论文中描述的原始算法参数的直接翻译。

免责声明:我是UIMA Ruta的开发者