如何在群集中有效地将大量小数据写入单个文件?

时间:2015-01-20 17:33:05

标签: file io filesystems

假设1000个CPU中的每一个都将整数写入群集中的共享文件。这1000个CPU位于群集中的不同节点上。快速完成这些写入的有效方法是什么? GPFS并行文件系统在群集中可用。

1 个答案:

答案 0 :(得分:1)

从文件系统/硬盘的角度来看,一种有效的写入方式是编写大型顺序写入。在群集上,每个节点的写入大小应足以使写入大小大于轮换成本。

从这个意义上说,将所有整数缓存到内存中的缓冲区然后将大缓冲区写入磁盘是有意义的。

现在,要问的问题是:订购要求是什么?如果必须及时对每个整数进行排序,则延迟/延迟写入可能会更改顺序。因此,如果排序很重要,那么可以使用时间戳和稍后排序。