我有一个非常大的文本文件(大约20 GB和3亿行),其中包含由标签页分隔的三列:
word1 word2 word3
word1 word2 word3
word1 word2 word3
word1 word2 word3
word1,word2和word3在每一行中都不同。 word3指定行的类别,并经常对不同的行重复(具有数千个不同的值)。目标是通过行类(word3)分隔文件。即对于所有行,单词1和单词2应该存储在名为单词3的文件中。例如,对于该行:
a b c
字符串“ a b”应附加到名为c的文件中。
现在,我知道如何通过while循环,逐行读取文件并为每行附加适当的文件来完成此操作:
while IFS='' read -r line || [[ -n "$line" ]]; do
# Variables
read -a line_array <<< ${line}
word1=${line_array[0]}
word2=${line_array[1]}
word3=${line_array[2]}
# Adding word1 and word2 to file word3
echo "${word1} ${word2}" >> ${word3}
done < "inputfile"
它可以工作,但是非常慢(即使我有一个带有SSD的快速工作站)。如何加快速度?我已经尝试在/ dev / shm中执行此过程,并将文件分成10个部分,并为每个文件并行运行上述脚本。但是它仍然很慢。有没有办法进一步加快速度?
答案 0 :(得分:4)
让我们生成一个示例文件:
$ seq -f "%.0f" 3000000 | awk -F $'\t' '{print $1 FS "Col_B" FS int(2000*rand())}' >file
这会在第3列中生成一个300万行文件,其中包含2,000个不同的值,类似于:
$ head -n 3 file; echo "..."; tail -n 3 file
1 Col_B 1680
2 Col_B 788
3 Col_B 1566
...
2999998 Col_B 1562
2999999 Col_B 1803
3000000 Col_B 1252
使用简单的awk
,您可以生成以这种方式描述的文件:
$ time awk -F $'\t' '{ print $1 " " $2 >> $3; close($3) }' file
real 3m31.011s
user 0m25.260s
sys 3m0.994s
这样awk将在大约3分钟31秒内生成2,000个组文件。当然比Bash快,但是通过按第三列对文件进行预排序并一次性写入每个组文件,可以更快。
您可以在管道中使用Unix sort
实用程序,并将输出提供给脚本,该脚本可以将已排序的组分隔为不同的文件。将-s
选项与sort
一起使用,第三个字段的值将是唯一会更改行顺序的字段。
由于我们可以假设sort
已根据文件的第3列将文件划分为多个组,因此脚本仅需要检测该值何时更改:
$ time sort -s -k3 file | awk -F $'\t' 'fn != ($3 "") { close(fn); fn = $3 } { print $1 " " $2 > fn }'
real 0m4.727s
user 0m5.495s
sys 0m0.541s
由于通过预分拣获得的效率,相同的净过程在5秒钟内完成。
如果您确定第3列中的“单词”仅是ascii(即,您不需要处理UTF-8),则可以将additional speed设置为LC_ALL=C
:>
$ time LC_ALL=C sort -s -k3 file | awk -F $'\t' 'fn != ($3 "") { close(fn); fn = $3 } { print $1 " " $2 > fn }'
real 0m3.801s
user 0m3.796s
sys 0m0.479s
来自评论:
1)请添加一行以说明为什么我们需要fn != ($3 "")
中的带括号的表达式:
awk
的{{1}}构造是fn != ($3 "") {action}
使用您认为最容易理解的快捷方式的有效快捷方式。
2)不确定文件是否大于可用内存是否也可以使用,因此这可能是一个限制因素。:
我运行了第一个和最后一个awk,其中包含3亿条记录和20,000个输出文件。最后一个排序是在12分钟内完成任务的。第一次花了10个小时...
排序版本实际上可以更好地扩展,因为打开附加文件和关闭20,000个文件需要3亿次。组合和流式传输类似数据效率更高。
3)我本来想早点排序,但后来觉得它可能不是最快的,因为我们必须用这种方法读取整个文件两次。:
纯随机数据就是这种情况;如果实际数据是有点排序的,则需要在两次读取文件之间进行权衡。使用较少的随机数据,第一个awk将会明显更快。但是,随后还需要时间来确定文件是否已排序。如果您知道文件大多已排序,请使用第一个;如果可能有点混乱,请使用最后一个。
答案 1 :(得分:3)
您可以使用awk:
For Ex. "hdjhjwjkhjj <br> hdnbjbj" to hdjhjwjkhjj <br> hdnbjbj .
答案 2 :(得分:2)
以awk
为例:
awk -F '{ print $1 FS $2 > $3 }' FILES
或者this Perl script(由我写)-我不会在这里重新发布,因为它会更长一些。 awk
应该稍微慢一些,因为它(重新)打开每一行的文件。每当您拥有超过250个不同的值/输出文件(或您的操作系统限制同时打开的文件句柄数量)时,这比Perl脚本要好。 Perl脚本尝试将所有输入数据保存在内存中,这要快得多,但是对于大型输入可能会出现问题。
用户oguzismail发布了针对大量输出文件的解决方案:
awk '{ print $1 FS $2 >> $3; close($3) }' file
(重新)打开每一行的输出文件,不会遇到同时打开太多打开的输出文件句柄的问题。 (重新)打开文件的速度可能较慢,但据报道并非如此。
编辑:修复了awk
的调用-它将整行打印到输出中,而不是前两列。
答案 3 :(得分:2)
此解决方案使用GNU并行,但可以与其他awk
解决方案一起进行调整。它还有一个不错的进度条:
parallel -a data_file --bar 'read -a arr <<< {}; echo "${arr[0]} ${arr[1]}" >> ${arr[2]}'
答案 4 :(得分:1)
您的问题与Is it possible to parallelize awk writing to multiple files through GNU parallel?
本质上非常相似如果您的磁盘可以处理它:
splitter() {
mkdir -p $1
cd $1
awk -F $'\t' '{ print $1 " " $2 >> $3; close($3) }'
}
export -f splitter
# Do the splitting in each dir
parallel --pipepart -a myfile --block -1 splitter {%}
# Merge the results
parallel 'cd {}; ls' ::: dir-* | sort -u | parallel 'cat */{} > {}'
# Cleanup dirs
rm -r */