什么是稀疏文件,我们为什么需要它? 我唯一能得到的是它是一个非常大的文件,它是高效的(千兆字节)。效率如何?
答案 0 :(得分:9)
假设您有一个包含许多空字节\x00
的文件。这些空字节\x00
称为空洞。存储空字节效率不高,我们知道文件中有很多字节,所以为什么要将它们存储在存储设备上?我们可以改为存储描述这些零的元数据。当进程读取文件时,这些零字节块是动态生成的,而不是存储在物理存储上(从维基百科看这个原理图):
这就是稀疏文件高效的原因,因为它不会在磁盘上存储零,而是保存足够的数据来描述将生成的零。
注意:逻辑文件大小大于稀疏文件的物理文件大小。这是因为我们没有将零物理存储在存储设备上。
修改:
当你跑步时:
$ dd if=/dev/zero of=output bs=1G count=4
此处的命令将4G空字节块复制到output
。要看到:
$ stat output
File: ouput
Size: 4294967296 Blocks: 8388616 IO Block: 4096 regular file
--omitted--
您可以看到此文件分配了 8388616 块,这些块只存储从/dev/zero
复制的空字节,它们占用物理磁盘空间,它们存储在磁盘上的空洞(稀疏零)。 dd
完成了您的要求,将数据块从一个文件复制到另一个文件。
现在,运行此命令以检测孔并使文件稀疏到位:
$ fallocate -d output
$ stat output
File: swapfile
Size: 4294967296 Blocks: 0 IO Block: 4096 regular file
--omitted--
你注意到了什么吗?块的数量现在为0,因为仅存储空字节的块被解除分配。请记住,output
的块不存储任何内容,只有一堆空零,fallocate -d
检测到只包含空零的块并取消分配它们,因为此文件的所有块都包含零,他们都被解除了分配。
还要注意尺寸是如何保持不变的。这是文件的逻辑(虚拟)大小,而不是磁盘上的大小。了解output
现在没有占用物理存储空间至关重要,它有0块分配给它,因此我并没有真正使用磁盘空间。运行fallocate -d
后保留的大小因此,当您稍后从文件中读取时,您将获得文件系统在运行时为您生成的空字节。但output
的物理大小为零,它不使用数据块。
请记住,当您读取output
文件时,文件系统在运行时动态生成空字节,它们不实际存储在磁盘上,文件&#39 ; stat
报告的s大小是逻辑大小,output
的物理大小为零。在这种情况下,当进程读取文件时,文件系统必须生成4G空字节。
使用dd
生成稀疏文件:
$ dd if=/dev/zero of=output2 bs=1G seek=0 count=0
$ stat
stat output2
File: output2
Size: 4294967296 Blocks: 0 IO Block: 4096 regular file
GNU dd
内部使用lseek
和ftruncate
,因此请检查truncate(2)和lseek(2)。
答案 1 :(得分:1)
稀疏文件是一个大部分为空的文件,即它包含大块字节,其值为0
(零)。
在磁盘上,文件的内容以固定大小的块(通常为4 KiB或更多)存储。当这样一个块中包含的所有字节都是0
时,实现稀疏文件的文件系统不会将该块存储在磁盘上,而是将信息保存在文件元数据中的某个位置。
使用稀疏文件的优点:
0
,所以它只是设置为0
输入缓冲区中的所有字节,数据就绪;无需访问慢速存储设备; 0
)并将块ID放入空块列表中(在文件元数据中);没有数据写入磁盘。有关稀疏文件的更多信息,请参见Wikipedia page。