我正在尝试设计基于UIMA的分布式可扩展管道。我应该如何决定在Hadoop上使用UIMA DUCC或UIMA?如果我在UIMA DUCC而不是Hadoop上构建它,反之亦然,我可能会错过什么?
答案 0 :(得分:3)
一个方面是应用程序特征。 Hadoop将为I / O密集型应用程序带来巨大优势。对于需要在不同线程中运行多个管道副本以实现高CPU利用率的大型内存应用程序,DUCC应该具有很大的优势。
另一个方面是利用UIMA而不是利用Hadoop。 DUCC基于UIMA基础功能,提供许多扩展选项,内置性能指标和调试支持,所有这些都基于核心UIMA组件。 UIMA管道越复杂,DUCC就越大;例如,复杂的处理流程可以直接在DUCC中实现,但可能必须转换为map-reduce。
对于那些拥有足够Hadoop专业知识的人来说,可以轻松地将相对简单的UIMA分析集成到现有的Hadoop商店中,而无需了解UIMA。
答案 1 :(得分:2)