我已经阅读了gnu排序的完整documentation并在线搜索但我找不到--buffer-size选项的默认值(它决定了程序在运行时使用的系统内存量)。我猜它是基于总系统内存以某种方式确定的? (或者在程序开始执行时可用的内存?)。我该如何确定?
更新:我进行了一些实验,似乎当我没有指定特定的 - 缓冲区大小值时,它最终会使用非常少的内存,因此走得很慢。如果能更好地理解究竟是什么决定了这种行为,那就太好了。
答案 0 :(得分:8)
我开始挖掘coreutils排序源代码并找到了这些函数:default_sort_size
和sort_buffer_size
。
事实证明,--buffer-size
(源代码中的sort_size
)不是目标缓冲区大小,而是最大缓冲区大小。如果未指定--buffer-size
值,则default_sort_size
函数用于确定安全的最大缓冲区大小。它基于资源限制,可用内存和总内存来执行此操作。该功能的摘要如下:
size = MIN(SIZE_MAX, resource_limit) / 2;
mem = MAX(available_memory, total_memory / 8);
if ( size > total_memory * 0.75 )
size = total * 0.75;
buffer_max = MIN(mem, size);
buffer_max = MAX(buffer, MIN_SORT_SIZE);
另一个函数sort_buffer_size
用于确定为给定输入文件分配多少内存。该功能的摘要如下:
if (sort_size is set)
size_bound = sort_size;
else
size_bound = default_sort_size();
buffer_size = line_bytes + 2;
for each input_file
if (input_file is regular)
file_size = input_file_size;
else
if (sort_size is set)
return sort_size;
else
file_size = guess;
worst_case = file_size * worst_case_per_input_byte + 1;
if (worst_case overflows || size + worst_case >= size_bound)
return size_bound;
else
size += worst_case;
return size;
sort_buffer_size
函数最重要的一点是,如果您要从STDIN或管道中对数据进行排序,它将自动默认为sort_size
(即--buffer-size
)如果提供的话。否则,对于常规文件,它将根据文件大小进行一些粗略计算,并仅使用sort_size
作为上限。
答案 1 :(得分:4)
用英文概括,默认值为:
从真实文件中读取: 使用所有可用内存,最多3/4且不少于总内存的1/8。
(如果有一个进程(rusage)内存限制生效,sort不会超过一半。)
从管道中读取:
使用小的固定量(几十MB)
您可能需要-S
。
目前为GNU coreutils 8.29,2018年1月。