我在我的Java程序中使用org.apache.uima.examples.cpe.SimpleRunCPE,它将CpeDescription XML文件作为输入。
此文件具有InputDirectory的nameValuePair,它指向UIMA应处理的文本文件的位置。
我如何在指定的文件列表上运行CPE?
背景是我在目录中有非常多的文本文件来运行UIMA以生成CAS文件。 如果经过几天的运行后UIMA进程突然停止(由于堆内存不足而崩溃或计算机必须重新启动),我想仅对剩余的未处理文件运行该进程。
我将如何继续呢?
答案 0 :(得分:2)
在CpeDescription XML文件中,您需要修改CollectionReader以接受新参数(例如文件列表或正则表达式)以过滤掉已处理的文件。 Here some code和tests让您入门。
另一种解决方法是将大型InputDirectory构建为较小的子目录,并在每个子目录上运行UIMA CPE。这样,如果一个CPE批处理失败,您可以重新启动它。