如何并行使用Linux“剪切”

时间:2015-04-28 16:31:52

标签: multithreading parallel-processing gnu cut gnu-parallel

我有一个大的制表符分隔文件(10TB)。

我想通过某些列来剪切文件,并且我希望使用我的24个内核中的每一个并行执行。

cut -f1,2,3 file > out

有关如何使用多个内核或并行执行此操作的任何想法。?

我有一些想法,比如

cat file | parallel --round-robin --pipe  "cut -f1 1,2,3"  > out

cat file | parallel --round-robin --pipe --block 1000000k "cut -f1 1,2,3"  > out

1 个答案:

答案 0 :(得分:1)

IF磁盘不是限制因素(但CPU是):

parallel -k --pipepart -a big.tsv --block 1g cut -f1 1,2,3 > out