我有两个文件:
的1.txt:
j_e_s_s_i_c_a_a_n_n zoltan670605@freemail.hu 61b8a203438ea1c56c1489ec7bea7a0e
9871951 sexbollente@hotmail.com 671cb9239bf797a082f723a07a9c713f
holliebrian nnagle1@yahoo.com a2e531ea7df55290c35d74082f38f020
9075407 car_jacko@hotmail.fr d20f83ee6933aa1ea047fe5cbd9c1fd5
9837056 alainkp@gmail.com e4d11b1c62cfbb7bfb49e4644e70d476
2.txt:
a2e531ea7df55290c35d74082f38f020:182:@*/
671cb9239bf797a082f723a07a9c713f:1199
e4d11b1c62cfbb7bfb49e4644e70d476:abcd123
d20f83ee6933aa1ea047fe5cbd9c1fd5:33;1:11
我希望这两个文件作为输出: 一个是left.txt,其中1.txt的行将在那里,其第三列(FS ='')与第二列2.txt(FS =':')
不匹配left.txt:
j_e_s_s_i_c_a_a_n_n zoltan670605@freemail.hu 61b8a203438ea1c56c1489ec7bea7a0e
另一个文件是result.txt,其中1.txt中的所有行都包含2.txt中的匹配项。但是在输出文件中,匹配的第3列应该被匹配的第2列(FS =':')
替换的Result.txt:
9871951 sexbollente@hotmail.com 1199
holliebrian nnagle1@yahoo.com 182:@*/
9075407 car_jacko@hotmail.fr 33;1:11
9837056 alainkp@gmail.com abcd123
我写了一个脚本来完成同样的任务:
awk -F : 'FNR==NR {s=$0;sub(/[^:]*:/, "", s); p[$1]=s; next} !($NF in p) {print > "left.txt"; next} {$NF=p[$NF]} 1' 2.txt FS=' ' OFS=' ' <(tr -d '\r' < 1.txt) > result.txt
我得到了预期的输出但是在更大的文件上1.txt(~3GB)和2.txt(~1 GB)。脚本崩溃并出现以下错误:
awk:cmd。 line:1:(FILENAME = 2.txt FNR = 21085923)致命: /home/corinna/src/gawk/gawk-4.2.0/gawk-4.2.0-1.x86_64/src/gawk-4.2.0/node.c:1021:more_blocks: freep:无法分配9600字节的内存(无法分配内存)
请帮助我为更大的文件运行脚本。任何帮助将受到高度赞赏。使用awk不是必须的。唯一的座右铭是在较短的时间内完成正确的工作而不会崩溃。
答案 0 :(得分:2)
关注awk
可能对您有帮助。
awk '
FNR==NR{
val=$1;
sub(/[^:]*/,"");
sub(/:/,"");
a[val]=$0;
next
}
!($NF in a){
print > "left.txt";
next
}
{
print $1,$2,a[$NF]> "result.txt"
}
' FS=":" 2.txt FS=" " OFS=" " 1.txt