所以,我有一个BlockingQueue,我正在填充数据(来自许多线程)。我想将这些数据聚合到1000个桶中,然后将它们传递到其他地方。所以我编写了一个线程类来轮询队列的末尾,当它有足够的元素时,就会发送聚合数据。
我希望在java.util.concurrent中找到一些东西来帮助解决这个问题。我通过java.util.concurrent看到的唯一方法就是让每次插入队列都会向任务添加一个runnable,然后添加到聚合集中,但这对我来说似乎效率很低。
使用线程轮询队列策略,假设我有5个线程,每个线程可以聚合在本地内存中(顺序不是很重要),然后传递掉。队列和目标是争用的唯一接触点 - 一个线程可以一次轮询阻塞队列。目的地可能永远不会争用。
使用基于任务的方法,使用Executor,所有线程将共享一个聚合点,因此将不断争用,更不用说集合的同步/并发变化更慢。
似乎很明显只有几个线程总是轮询BlockingQueue。缺点是现在我需要编写所有的开始,停止,我需要处理线程死亡的情况等等。这看起来像我希望在java.util.concurrent或者apache中找到的样板图书馆。
我真的离预订很远吗?一个只运行x个线程的类,如果它们失败则重新启动它们?还有其他明显(高效)的方法,我只是没有看到吗?
答案 0 :(得分:3)
试试这个。
public class Consumer<DATA> {
private List<DATA> dataList = new ArrayList<DATA>();
private ExecutorService threadPool = Executors.newFixedThreadPool(5);
public synchronized void consume(DATA data) {
dataList.add(data);
if(dataList.size() >= 1000) {
threadPool.submit(new ConsumerWorker(data));
}
}
}
我们基本上在生产者的线程上下文中累积数据,直到它达到所需的限制。然后我们将这批数据提交给线程池,该线程池将根据其可用性排队或执行ConsumerWorker。您也可以调整线程池的行为。例如,使用newCachedThreadPool()将删除非活动线程。
答案 1 :(得分:2)
如果我要实现这个,我只需要一个在阻塞队列上调用take()
(不轮询)的线程,直到它获得一个完整的批处理,然后将这个批处理交给你的处理代码。如果批处理逻辑可能很长,这可能是一个单独的工作线程池。你的帖子很长,并谈论提交runnables与每个项目(?),各种所谓的争用点,以及其他我没有完全遵循的事情。不知道为什么它需要比我刚才描述的更复杂。 (这将使用java.util.concurrent中的BlockingQueue和Executors,并且不需要任何直接的线程管理)。