对流浪者进行分类需要2个小时 - 约100米行

时间:2015-07-01 15:44:09

标签: linux sorting ubuntu optimization vagrant

如何优化此排序?

我正在跑步:

mytime="$(time ( cat quotes_2009-04.txt | tr [:space:] '\n' | grep -v "^\s*$" | sort | uniq -c  ) 2>&1 1>/dev/null )"

然后:

echo "$mytime"

获得以下输出:

real    134m0.107s
user    105m27.274s
sys 42m34.889s

这是我正在使用的数据集:

enter image description here

原始数据集的预览:

enter image description here

这是有关流浪汉机器的详细信息:

enter image description here

如何优化此排序?

1 个答案:

答案 0 :(得分:3)

将数据拆分为多个文件,并行对每个文件进行排序,然后将这些文件合并在一起。例如,请参阅here