如何在UIMA DUCC中定义多个CAS消费者?

时间:2015-04-21 06:29:31

标签: information-retrieval uima ducc

我正在UIMA DUCC中设计文本挖掘管道,如下所示:

|-----------------|
|                 | ==CAS_1==> Pipeline A ==> Consumer A 
| CAS Multiplier  | ==CAS_2==> Pipeline B ==> Consumer B
|                 | ==CAS_3==> Pipeline C ==> Consumer C 
|-----------------|

我打算并行运行Piepline A,B和C.我相信它可以使用流量控制器完成。我的理解是对的吗?如果是,我如何定义多个CC。作业描述文件中的process_descriptor_CC字段仅占用一个使用者。我们如何通过多个消费者及其派对线?

3 个答案:

答案 0 :(得分:1)

如果打算处理大量文档 具有高吞吐量然后是三个管道,每个管道包括它 CAS消费者,都将在AE(process_descriptor_AE)和 AE将包括一个自定义流量控制器来路由CASes 如预期的。 AE中的CAS可以一次运行一个,但是多个 可以通过指定数字并行运行CM + AE线程 JP线程(process_thread_count)大于1。

答案 1 :(得分:1)

首先,您需要了解流控制器并使用流量控制器创建聚合描述符,并像流控制器中的分析引擎描述符一样添加cas使用者描述符。

在此之后,您的方案有两个用例:

  1. 仅使用process_descriptor_CR和process_descriptor_AE,并在AE中使用基于流控制器的聚合描述符。

  2. 仅使用process_descriptor_CR和process_dd,并在部署描述符中使用基于流控制器的聚合描述符。

答案 2 :(得分:0)

创建一个流控制器并将cas consumer添加为委托分析引擎。 通过这种方式,您可以添加任意数量的内容。 然后在部署描述符中给出flowcontroller的路径,并在作业规范中给出这个路径。