Question

所以，我有一个BlockingQueue，我正在填充数据（来自许多线程）。我想将这些数据聚合到1000个桶中，然后将它们传递到其他地方。所以我编写了一个线程类来轮询队列的末尾，当它有足够的元素时，就会发送聚合数据。

我希望在java.util.concurrent中找到一些东西来帮助解决这个问题。我通过java.util.concurrent看到的唯一方法就是让每次插入队列都会向任务添加一个runnable，然后添加到聚合集中，但这对我来说似乎效率很低。

使用线程轮询队列策略，假设我有5个线程，每个线程可以聚合在本地内存中（顺序不是很重要），然后传递掉。队列和目标是争用的唯一接触点 - 一个线程可以一次轮询阻塞队列。目的地可能永远不会争用。

使用基于任务的方法，使用Executor，所有线程将共享一个聚合点，因此将不断争用，更不用说集合的同步/并发变化更慢。

似乎很明显只有几个线程总是轮询BlockingQueue。缺点是现在我需要编写所有的开始，停止，我需要处理线程死亡的情况等等。这看起来像我希望在java.util.concurrent或者apache中找到的样板图书馆。

我真的离预订很远吗？一个只运行x个线程的类，如果它们失败则重新启动它们？还有其他明显（高效）的方法，我只是没有看到吗？

Answer 1

试试这个。

public class Consumer<DATA> {

    private List<DATA> dataList = new ArrayList<DATA>();

    private ExecutorService threadPool = Executors.newFixedThreadPool(5);

    public synchronized void consume(DATA data) {

        dataList.add(data);

        if(dataList.size() >= 1000) {

            threadPool.submit(new ConsumerWorker(data));
        }
    }

}

我们基本上在生产者的线程上下文中累积数据，直到它达到所需的限制。然后我们将这批数据提交给线程池，该线程池将根据其可用性排队或执行ConsumerWorker。您也可以调整线程池的行为。例如，使用newCachedThreadPool（）将删除非活动线程。

Answer 2

如果我要实现这个，我只需要一个在阻塞队列上调用take()（不轮询）的线程，直到它获得一个完整的批处理，然后将这个批处理交给你的处理代码。如果批处理逻辑可能很长，这可能是一个单独的工作线程池。你的帖子很长，并谈论提交runnables与每个项目（？），各种所谓的争用点，以及其他我没有完全遵循的事情。不知道为什么它需要比我刚才描述的更复杂。（这将使用java.util.concurrent中的BlockingQueue和Executors，并且不需要任何直接的线程管理）。

写我自己的消费者线程 - 我没看到什么？

2 个答案: