我已经研究了默认的UIMA Ruta Workbench Eclipse项目,足以明显了解其移动部分 - 例如,为什么input/
和output/
文件夹的行为与他们一样,如何使用jcasgen
和其他Maven插件等
但即使经过几个小时的研究项目并与Maven一起尝试让它发挥作用,我仍然在做一些非常简单的事情上遇到了很多麻烦:使用DKPro
库(特别是类型)来自Ruta
脚本。
我的基本问题是:在Ruta脚本中使用DKPro和TC库中的类型和分析组件的阻力最小的路径是什么?
我的具体问题是:
我注意到在许多desc/type
个罐子的api
文件夹中有TypeSystemDescription
个XML文件似乎适合与Ruta一起使用。有没有办法为TypeSystemDescription
组件获取“主”DKPro
XML文件?
是否存在使用我可以研究的Ruta
和DKPro
的复杂项目?
使用AnalysisEngine
脚本执行的Ruta
和使用Java编写的Analysis Component
之间有什么区别?
已编辑以反映较少的挫败感
答案 0 :(得分:3)
实际上,Ruta和DKPro的人们一起做工作坊,然后愉快地坐在篝火旁 - 或者至少在鸡尾酒吧喝点饮料。不幸的是,我们不经常这样做。
您要求的问题种类和数量需要教程;)
您是否看过我们joint workshop at GSCL 2013的幻灯片和示例?
它包含了几个如何一起使用DKPro Core和Ruta的例子。在这些示例中,有一个Maven项目负责获取DKPro Core依赖项,然后单独的Ruta项目依赖于该Maven项目并使用分析引擎。
还应该有一个单独的项目,Ruta和Maven性质。
在类路径中为所有DKPro Core类型获取单一类型描述符的方法(或者更确切地说是类路径中所有支持uimaFIT的类型)
import org.apache.uima.fit.factory.TypeSystemDescriptionFactory;
OutputStream os = ...
TypeSystemDescriptionFactory.createTypeSystemDescription().toXML(os);
AnalysisComponent
表示来自 inside 的视图,即从组件开发人员的角度(框架内的视图)。 AnalysisEngine
表示来自外部的视图,即来自组件/工作流的用户的视图。但是,通常有人会说"我正在实施新的分析引擎"并且意味着"我将继承JCasAnnotator_ImplBase
(AnalysisComponent
)"的实现。另请参阅UIMA开发人员邮件列表中的this post。
披露:我是DKPro Core开发人员和Apache UIMA开发人员。