我最近开始与UIMA RUTA合作。我有几个问题。 1:如何使用RUTA中的现有标记器(DBpedia标记器,MunPx Tagger)? 2:如何使用注释编写器格式化输出? 3:RUTA是否将.txt以外的其他文件格式作为输入?
答案 0 :(得分:0)
1:如何在RUTA中使用现有的标记器(DBpedia标记器,MunPx Tagger)?
UIMA Ruta不依赖于特定类型的系统。如果您有一个带有不同标记器的管道,并且这些标记器创建了某种类型系统的注释,那么您可以在Ruta脚本中使用这些注释编写规则,并在该管道的分析引擎中使用这些规则。根据配置,您可能需要在Ruta脚本中导入类型系统。
2:如何使用注释编写器格式化输出?
如果您以ruta-core引用AnnoationWriter,那么答案是:您无法格式化输出。您需要使用其他分析引擎。
3:RUTA是否将.txt以外的其他文件格式作为输入?
通常,Ruta处理给定的CAS对象,任何文件格式的任何读取器都将填充该CAS对象。在UIMA Ruta工作台中,启动配置支持“ .txt”,“。csv”,“ html”,“ xhtml”作为纯文本文件格式以及“ .xmi”,“。xcas”,“。bcas”,“”。 scas”使用CasIOUtils的SerialFormat检测。
免责声明:我是UIMA Ruta的开发人员