我正在UIMA DUCC中设计文本挖掘管道,如下所示:
|-----------------|
| | ==CAS_1==> Pipeline A ==> Consumer A
| CAS Multiplier | ==CAS_2==> Pipeline B ==> Consumer B
| | ==CAS_3==> Pipeline C ==> Consumer C
|-----------------|
我打算并行运行Piepline A,B和C.我相信它可以使用流量控制器完成。我的理解是对的吗?如果是,我如何定义多个CC。作业描述文件中的process_descriptor_CC
字段仅占用一个使用者。我们如何通过多个消费者及其派对线?
答案 0 :(得分:1)
如果打算处理大量文档 具有高吞吐量然后是三个管道,每个管道包括它 CAS消费者,都将在AE(process_descriptor_AE)和 AE将包括一个自定义流量控制器来路由CASes 如预期的。 AE中的CAS可以一次运行一个,但是多个 可以通过指定数字并行运行CM + AE线程 JP线程(process_thread_count)大于1。
答案 1 :(得分:1)
首先,您需要了解流控制器并使用流量控制器创建聚合描述符,并像流控制器中的分析引擎描述符一样添加cas使用者描述符。
在此之后,您的方案有两个用例:
仅使用process_descriptor_CR和process_descriptor_AE,并在AE中使用基于流控制器的聚合描述符。
仅使用process_descriptor_CR和process_dd,并在部署描述符中使用基于流控制器的聚合描述符。
答案 2 :(得分:0)
创建一个流控制器并将cas consumer添加为委托分析引擎。 通过这种方式,您可以添加任意数量的内容。 然后在部署描述符中给出flowcontroller的路径,并在作业规范中给出这个路径。