nftw目录的总大小与du输出不同

时间:2013-09-21 18:51:45

标签: c linux filesystems

我写了一小段使用nftw系统调用的代码来进行树木行走。

int flags =0;
flags = flags | FTW_MOUNT;
int nopenfd = 10;

if( nftw( argv[1], sum_sizes, nopenfd, flags) == -1 )
  return EXIT_FAILURE;

使用此选项,如果nftw是挂载点并且取消引用符号链接(默认行为),则nftw不扫描目录。

在每个文件上nftw调用此函数:

/*total_size is the sum of each file/directory/link*/
long long int total_size, total_real_size = 0;

static int sum_sizes(const char *pathname, const struct stat *statbuf, int typeflag, struct FTW *ftwbuf)
{
/*if stat failed on the current file*/
if(typeflag == FTW_NS)
{
    printf("No stats (permissions ?) on %s", pathname);
    return 0;
}
total_size = total_size + (long long int ) statbuf->st_size;
total_real_size = total_real_size + (long long int ) ( statbuf->st_blocks * 512 );
return 0;
}

所以最后,我显示累积大小:

printf("total size: %lld (%0.2lf K %0.2lf M)\n", total_size,  (float)total_size /1024.0, (float)total_size /(1024.0*1024.0));
printf("total real size: %lld (%0.2lf K %0.2lf M)\n", total_real_size,  (float)total_real_size /1024.0, (float)total_real_size /(1024.0*1024.0));

当我将这些值与du进行比较时,我有一些差异

time ./scan_dir ~/        
====>
total size: 15208413390 (14851966.00 K 14503.87 M)
total real size: 15708553216 (15340384.00 K 14980.84 M)
block size : 4096 / fond. block size : 4096
fs size: 22.7895 G
./scan_dir ~/  0,03s user 0,24s system 98% cpu 0,277 total


time du -s ~/     
15119876    /home/cedlemo/
du -s ~/  0,07s user 0,22s system 98% cpu 0,287 total

注意:在阅读du的手册后,我知道du的行为几乎与我的小应用程序scan_dir相同(跳过挂载点,derefrences符号链接并使用1024来计算Ko中的值)

似乎我的应用程序找到的更接近的值是实际大小(使用的块)的总和,但值并不是真的相同。

这种差异的原因是什么? 我做错了什么?

1 个答案:

答案 0 :(得分:1)

默认情况下,du 遵循符号链接。你的代码确实如此。

du -ks DIRECTORY/

相当于

find DIRECTORY/ -printf '%k\n' | awk '{s+=$1} END { printf "%.0f\n", s }'

仅查看每个目录条目一次,不遵循符号链接,不跨越挂载点,并输出st_blocks*2的总和(即,以1024字节为单位)。换句话说,为文件和目录内容分配的1024字节单元数 - 磁盘使用情况

另一方面,逻辑文件和目录大小的总和是

find DIRECTORY/ -printf '%s\n' | awk '{s+=$1} END { printf "%.0f\n", s / 1024.0 }'

磁盘使用无关,仅与存储在文件和目录中的明显信息量有关。通常,此测量仅限于常规文件,即

find DIRECTORY/ -type f -printf '%s\n' | awk '{s+=$1} END { printf "%.0f\n", s / 1024.0 }'

所以它基本上告诉用户如果他们将所有文件连接成一个巨大的文件,他们将获得多大的文件。它是否有意义是有争议的,但许多用户发现它提供了丰富的信息。无论如何,它绝对是对磁盘使用情况的不同衡量标准。


在文件统计信息(参见man 2 fstat)中,st_blocks描述了为文件内容分配了多少512字节单位,以及st_size文件的逻辑大小。

大多数文件系统都支持稀疏文件。这意味着当您使用truncate()放大文件,或者写入比当前文件大小更高的文件偏移量时,文件系统根本不存储跳过的部分。然而,阅读那部分是完全可以的;它将永远读作全零。因此,一个巨大的文件可能只消耗几个块,如果它大多是零。 (确切地说,“跳过零”。在创建文件时,只写零就不会产生稀疏文件。您的应用程序需要跳过写零,以生成稀疏文件。)

由于某些文件系统上某些文件使用的间接块,因此基于文件大小,块的数量也可能大于1。可能会分配和计算“额外块”,因为文件是碎片或其他特殊的。在所有典型的文件系统中,无论如何,已分配块的数量都会向上舍入到文件系统分配大小的倍数。


在您的情况下,total size是文件的逻辑长度,如果您要将所有文件和目录的内容连接到一个文件中,包括符号链接引用的任何重复项。

在您的情况下,total real size描述了为所有文件和目录分配的磁盘空间总量,如果符号链接被原始文件的副本替换

如果您更改为

flags = FTW_MOUNT | FTW_PHYS;

您应该total real sizedu -s匹配。