我有一个大的制表符分隔文件(10TB)。
我想通过某些列来剪切文件,并且我希望使用我的24个内核中的每一个并行执行。
cut -f1,2,3 file > out
有关如何使用多个内核或并行执行此操作的任何想法。?
我有一些想法,比如
cat file | parallel --round-robin --pipe "cut -f1 1,2,3" > out
cat file | parallel --round-robin --pipe --block 1000000k "cut -f1 1,2,3" > out
答案 0 :(得分:1)
IF磁盘不是限制因素(但CPU是):
parallel -k --pipepart -a big.tsv --block 1g cut -f1 1,2,3 > out