Java和队列:多线程I / O的饱和问题

时间:2013-10-05 08:08:08

标签: java multithreading concurrency io queue

此问题与最新版本的Java有关。

30个生产者线程将字符串推送到抽象队列。一个编写器线程从同一队列弹出,并将该字符串写入驻留在5400 rpm HDD RAID阵列上的文件。数据以大约111 MBps的速率推送,并以大约80MBps的速率弹出/写入。该程序存在5600秒,足以使大约176 GB的数据在队列中累积。另一方面,我限制为总共64GB的主内存。

我的问题是:我应该使用什么类型的队列?

这是我到目前为止所尝试的内容。

1)ArrayBlockingQueue。这个有界队列的问题在于,无论数组的初始大小如何,一旦填满,我总是会遇到活动问题。实际上,在程序启动几秒后,top仅报告一个活动线程。分析表明,平均而言,生产者线程花费大部分时间等待队列释放。这与我是否使用公平访问策略(构造函数中的第二个参数设置为true)无关。

2)ConcurrentLinkedQueue。就活力而言,这个无限制的队列表现得更好。直到我耗尽内存,大约七百秒,所有三十个生产者线程都处于活动状态。然而,在我超过64GB限制之后,事情变得异常缓慢。我猜想这是因为分页问题,​​虽然我没有进行任何实验来证明这一点。

我预见到了两种出路。

1)购买SSD。希望I / O速率提高会有所帮助。

2)在写入文件之前压缩输出流。

还有其他选择吗?我是否遗漏了构造/使用上述队列的方式?是否有更聪明的方式来使用它们? Java Concurrency in Practice一书提出了一些饱和策略(第8.3.3节),在有限队列填充速度快于耗尽的情况下,但不幸的是,没有一个 - 中止,调用者运行,以及两个丢弃政策---适用于我的方案。

5 个答案:

答案 0 :(得分:3)

寻找瓶颈。你生产的消耗量更多,有界的队列绝对有意义,因为你不想耗尽内存。

尽量让您的消费者更快。剖析并查看花费最多时间的位置。既然你在这里写了一些想法:

  • 您可以使用NIO来解决问题吗? (也许FileChannel#transferTo()
  • 仅在需要时冲洗。
  • 如果你有足够的CPU储备,压缩流? (如你所说)
  • 优化磁盘的速度(raid缓存等)
  • 更快的磁盘

正如@Flavio已经说过的那样,对于生产者 - 消费者模式,我认为没有问题,应该是现在的方式。最后,最慢的一方控制速度。

答案 1 :(得分:2)

我在这里看不到问题。在生产者 - 消费者的情况下,系统将始终以较慢的一方的速度行事。如果生产者比消费者更快,那么当队列填满时,它将减慢到消费者的速度。

如果您的约束条件是您不能减慢生产者的速度,那么您必须找到加速消费者的方法。描述消费者(不要开始太花哨,一些System.nanoTime()调用经常提供足够的信息),检查它花费大部分时间的地方,并从那里开始优化。如果您有CPU瓶颈,可以改进算法,添加更多线程等。如果您有磁盘瓶颈,请尝试少写(压缩是个好主意),获得更快的磁盘,写入两个磁盘而不是一个...

答案 2 :(得分:1)

根据java“Queue implementation”,还有其他适合您的类:

  • 的LinkedBlockingQueue
  • 的PriorityBlockingQueue
  • DelayQueue
  • 的SynchronousQueue
  • LinkedTransferQueue
  • TransferQueue

我不知道这些类的性能或内存使用情况,但您可以自己尝试。

我希望这会对你有所帮助。

答案 3 :(得分:1)

为什么你有30个生产者。这个号码是由问题域修复的,还是仅仅是您选择的号码?如果是后者,你应该减少生产者的数量,直到他们生产的总费率只比消费量大一点,并使用阻塞队列(正如其他人所建议的那样)。然后,您将使您的消费者忙碌,这是性能限制部分,同时最大限度地减少对其他资源(内存,线程)的使用。

答案 4 :(得分:1)

你只有两种方法:让供应商变慢或消费者更快。较慢的生产者可以通过多种方式完成,特别是使用有界队列。为了提高消费者的速度,请尝试https://www.google.ru/search?q=java+memory-mapped+file。看看https://github.com/peter-lawrey/Java-Chronicle

另一种方法是从编写字符串写缓冲区的工作中释放写线程。让生产者线程发出就绪缓冲区,而不是字符串。使用有限数量的缓冲区,比如2 * threadnumber = 60。在开始时分配所有缓冲区,然后重复使用它们。将队列用于空缓冲区。生成线程从该队列中获取缓冲区,填充它并放入写入队列。编写线程从写入线程,写入磁盘并放入空缓冲区队列中获取缓冲区。

另一种方法是使用asynchronous I/O。生产者自己开始编写操作,没有特殊的写作线程。 Completion handler将使用过的缓冲区返回到空缓冲区队列中。