根据Bash中的行内容加快大文本文件的分离

时间:2018-10-20 14:07:37

标签: linux bash awk io

我有一个非常大的文本文件(大约20 GB和3亿行),其中包含由标签页分隔的三列:

word1 word2 word3
word1 word2 word3
word1 word2 word3
word1 word2 word3

word1,word2和word3在每一行中都不同。 word3指定行的类别,并经常对不同的行重复(具有数千个不同的值)。目标是通过行类(word3)分隔文件。即对于所有行,单词1和单词2应该存储在名为单词3的文件中。例如,对于该行:

a b c

字符串“ a b”应附加到名为c的文件中。

现在,我知道如何通过while循环,逐行读取文件并为每行附加适当的文件来完成此操作:

while IFS='' read -r line || [[ -n "$line" ]]; do
    # Variables
    read -a line_array <<< ${line}
    word1=${line_array[0]}
    word2=${line_array[1]}
    word3=${line_array[2]}

    # Adding word1 and word2 to file word3
    echo "${word1} ${word2}" >> ${word3}  
done < "inputfile"

它可以工作,但是非常慢(即使我有一个带有SSD的快速工作站)。如何加快速度?我已经尝试在/ dev / shm中执行此过程,并将文件分成10个部分,并为每个文件并行运行上述脚本。但是它仍然很慢。有没有办法进一步加快速度?

5 个答案:

答案 0 :(得分:4)

让我们生成一个示例文件:

$ seq -f "%.0f" 3000000 | awk -F $'\t' '{print $1 FS "Col_B" FS int(2000*rand())}' >file

这会在第3列中生成一个300万行文件,其中包含2,000个不同的值,类似于:

$ head -n 3 file; echo "..."; tail -n 3 file
1   Col_B   1680
2   Col_B   788
3   Col_B   1566
...
2999998 Col_B   1562
2999999 Col_B   1803
3000000 Col_B   1252

使用简单的awk,您可以生成以这种方式描述的文件:

$ time awk -F $'\t' '{ print $1 " " $2 >> $3; close($3) }' file
real    3m31.011s
user    0m25.260s
sys     3m0.994s

这样awk将在大约3分钟31秒内生成2,000个组文件。当然比Bash快,但是通过按第三列对文件进行预排序并一次性写入每个组文件,可以更快。

您可以在管道中使用Unix sort实用程序,并将输出提供给脚本,该脚本可以将已排序的组分隔为不同的文件。将-s选项与sort一起使用,第三个字段的值将是唯一会更改行顺序的字段。

由于我们可以假设sort已根据文件的第3列将文件划分为多个组,因此脚本仅需要检测该值何时更改:

$ time sort -s -k3 file | awk -F $'\t' 'fn != ($3 "") { close(fn); fn = $3 } { print $1 " " $2 > fn }'
real    0m4.727s
user    0m5.495s
sys     0m0.541s

由于通过预分拣获得的效率,相同的净过程在5秒钟内完成。

如果您确定第3列中的“单词”仅是ascii(即,您不需要处理UTF-8),则可以将additional speed设置为LC_ALL=C

$ time LC_ALL=C sort -s -k3 file | awk -F $'\t' 'fn != ($3 "") { close(fn); fn = $3 } { print $1 " " $2 > fn }'
real    0m3.801s
user    0m3.796s
sys     0m0.479s

来自评论:

1)请添加一行以说明为什么我们需要fn != ($3 "") 中的带括号的表达式:

awk的{​​{1}}构造是fn != ($3 "") {action}使用您认为最容易理解的快捷方式的有效快捷方式。

2)不确定文件是否大于可用内存是否也可以使用,因此这可能是一个限制因素。

我运行了第一个和最后一个awk,其中包含3亿条记录和20,000个输出文件。最后一个排序是在12分钟内完成任务的。第一次花了10个小时...

排序版本实际上可以更好地扩展,因为打开附加文件和关闭20,000个文件需要3亿次。组合和流式传输类似数据效率更高。

3)我本来想早点排序,但后来觉得它可能不是最快的,因为我们必须用这种方法读取整个文件两次。

纯随机数据就是这种情况;如果实际数据是有点排序的,则需要在两次读取文件之间进行权衡。使用较少的随机数据,第一个awk将会明显更快。但是,随后还需要时间来确定文件是否已排序。如果您知道文件大多已排序,请使用第一个;如果可能有点混乱,请使用最后一个。

答案 1 :(得分:3)

您可以使用awk:

For Ex. "hdjhjwjkhjj <br> hdnbjbj" to hdjhjwjkhjj <br> hdnbjbj .

答案 2 :(得分:2)

awk为例:

awk -F '{ print $1 FS $2 > $3 }' FILES

或者this Perl script(由我写)-我不会在这里重新发布,因为它会更长一些。 awk应该稍微慢一些,因为它(重新)打开每一行的文件。每当您拥有超过250个不同的值/输出文件(或您的操作系统限制同时打开的文件句柄数量)时,这比Perl脚本要好。 Perl脚本尝试将所有输入数据保存在内存中,这要快得多,但是对于大型输入可能会出现问题。

用户oguzismail发布了针对大量输出文件的解决方案:

awk '{ print $1 FS $2 >> $3; close($3) }' file

(重新)打开每一行的输出文件,不会遇到同时打开太多打开的输出文件句柄的问题。 (重新)打开文件的速度可能较慢,但据报道并非如此。

编辑:修复了awk的调用-它将整行打印到输出中,而不是前两列。

答案 3 :(得分:2)

此解决方案使用GNU并行,但可以与其他awk解决方案一起进行调整。它还有一个不错的进度条:

parallel -a data_file --bar 'read -a arr <<< {}; echo "${arr[0]} ${arr[1]}" >> ${arr[2]}'

答案 4 :(得分:1)

您的问题与Is it possible to parallelize awk writing to multiple files through GNU parallel?

本质上非常相似

如果您的磁盘可以处理它:

splitter() {
  mkdir -p $1
  cd $1
  awk -F $'\t' '{ print $1 " " $2 >> $3; close($3) }'
}
export -f splitter
# Do the splitting in each dir 
parallel --pipepart -a myfile --block -1 splitter {%}
# Merge the results
parallel 'cd {}; ls' ::: dir-* | sort -u | parallel 'cat */{} > {}'
# Cleanup dirs
rm -r */