gnu sort - 默认缓冲区大小

时间:2016-05-29 19:52:39

标签: gnu-sort

我已经阅读了gnu排序的完整documentation并在线搜索但我找不到--buffer-size选项的默认值(它决定了程序在运行时使用的系统内存量)。我猜它是基于总系统内存以某种方式确定的? (或者在程序开始执行时可用的内存?)。我该如何确定?

更新:我进行了一些实验,似乎当我没有指定特定的 - 缓冲区大小值时,它最终会使用非常少的内存,因此走得很慢。如果能更好地理解究竟是什么决定了这种行为,那就太好了。

2 个答案:

答案 0 :(得分:8)

我开始挖掘coreutils排序源代码并找到了这些函数:default_sort_sizesort_buffer_size

事实证明,--buffer-size(源代码中的sort_size)不是目标缓冲区大小,而是最大缓冲区大小。如果未指定--buffer-size值,则default_sort_size函数用于确定安全的最大缓冲区大小。它基于资源限制,可用内存和总内存来执行此操作。该功能的摘要如下:

size = MIN(SIZE_MAX, resource_limit) / 2;
mem  = MAX(available_memory, total_memory / 8);

if ( size > total_memory * 0.75 )
    size = total * 0.75;

buffer_max = MIN(mem, size);
buffer_max = MAX(buffer, MIN_SORT_SIZE);

另一个函数sort_buffer_size用于确定为给定输入文件分配多少内存。该功能的摘要如下:

if (sort_size is set)
    size_bound = sort_size;
else
    size_bound = default_sort_size();

buffer_size = line_bytes + 2;

for each input_file
    if (input_file is regular)
        file_size = input_file_size;
    else
        if (sort_size is set)
            return sort_size;
        else
            file_size = guess;

    worst_case = file_size * worst_case_per_input_byte + 1;

    if (worst_case overflows || size + worst_case >= size_bound)
        return size_bound;
    else
        size += worst_case;

return size;

sort_buffer_size函数最重要的一点是,如果您要从STDIN或管道中对数据进行排序,它将自动默认为sort_size(即--buffer-size)如果提供的话。否则,对于常规文件,它将根据文件大小进行一些粗略计算,并仅使用sort_size作为上限。

答案 1 :(得分:4)

用英文概括,默认值为:

从真实文件中读取: 使用所有可用内存,最多3/4且不少于总内存的1/8。

(如果有一个进程(rusage)内存限制生效,sort不会超过一半。)

从管道中读取: 使用小的固定量(几十MB) 您可能需要-S

目前为GNU coreutils 8.29,2018年1月。