如何在文件列表上运行UIMA?

时间:2015-03-12 23:18:40

标签: java uima

我在我的Java程序中使用org.apache.uima.examples.cpe.SimpleRunCPE,它将CpeDescription XML文件作为输入。

此文件具有InputDirectory的nameValuePair,它指向UIMA应处理的文本文件的位置。

我如何在指定的文件列表上运行CPE?

背景是我在目录中有非常多的文本文件来运行UIMA以生成CAS文件。 如果经过几天的运行后UIMA进程突然停止(由于堆内存不足而崩溃或计算机必须重新启动),我想仅对剩余的未处理文件运行该进程。

我将如何继续呢?

1 个答案:

答案 0 :(得分:2)

在CpeDescription XML文件中,您需要修改CollectionReader以接受新参数(例如文件列表或正则表达式)以过滤掉已处理的文件。 Here some codetests让您入门。

另一种解决方法是将大型InputDirectory构建为较小的子目录,并在每个子目录上运行UIMA CPE。这样,如果一个CPE批处理失败,您可以重新启动它。