如何实现对Java中映射到内存的文件的并发读取?

时间:2012-05-14 08:27:53

标签: java file-io concurrency nio

我有很多线程同时读取同一个文件(完全大约100M),只有一个线程来更新文件。我想将文件映射到内存中以减少文件I / O.如何在Java中完成?

我基本上考虑了以下两种方法:

  1. 用字节数组存储文件,每次创建ByteArrayInputStream以在多线程读取时读取缓冲区。
  2. 使用NIO获取一个文件通道,同步通道以从MappedByteBuffer读取以进行多线程读取。
  3. 我不确定这些方法是否有效。如果有更好的解决方案,请帮助提供一些提示。

1 个答案:

答案 0 :(得分:12)

使用NIO与每个线程创建自己的映射并在其自己的私有缓冲区中读取数据。保持私有缓冲区大小最佳。操作系统在页面中的文件高速缓存中读取文件,并将页面读入专用缓冲区。如果多个线程读取相同的区域,则将从文件高速缓存中的相同页面读取数据,从而节省一些文件i / o周期。下面是一个小图表来说明这一点。希望有助于更好地理解。

memory mapped file io

参考上图,下面是一些解释。文件的一个区域映射到内存。创建映射只是一个逻辑标记,表示您要从文件的特定部分读取。创建映射后,映射区域就可以读取了。当您开始阅读时,操作系统会将文件数据提取到文件缓存中的页面中。该区域可以映射到一个或多个页面。现在,您将页面读入您自己的私有缓冲区(一次多个页面进行优化)。其他一些线程可能正在读取与第一个相同的区域,因此它也会将相同的页面读入其私有缓冲区。请注意,这次从文件缓存中发生读取而没有页面错误。处理完私有缓冲区后,请求进一步阅读。请注意,您一次只能将映射的一部分读入私有缓冲区。你的文件可能是100MB,你将10MB的部分映射到内存;并且你有40KB的私人缓冲区,你首先读取10MB的40KB。然后请求下一个40KB,依此类推。操作系统会检查您要读取的数据是否已被提取到缓存中。如果不是,则发生页面错误,并且OS将请求的数据提取到页面中。如果多个线程请求读取相同区域,则可以再次共享此数据。您可以很好地使用文件缓存本身进行读取,而不是创建自己的私有缓冲区。但是,如果文件在多个区域同时多次读取,则会导致多页错误。所以在这种情况下,最好有一个最佳大小的私有缓冲区。