我有两个文件A和B.我想找到A中不在B中的所有行。在bash /使用标准linux实用程序中,最快的方法是什么?这是我到目前为止所尝试的:
for line in `cat file1`
do
if [ `grep -c "^$line$" file2` -eq 0]; then
echo $line
fi
done
它有效,但速度很慢。有没有更快的方法呢?
答案 0 :(得分:21)
The BashFAQ describes doing exactly this with comm,这是规范正确的方法。
# Subtraction of file1 from file2
# (i.e., only the lines unique to file2)
comm -13 <(sort file1) <(sort file2)
diff不太适合这个任务,因为它试图在块而不是单独的行上操作;因此,它必须使用的算法更复杂,内存效率更低。
自SUS2(1997)以来,答案 1 :(得分:2)
如果您只想要文件A
中的行,而不是B
中的行,则可以对文件进行排序,并将它们与diff进行比较。
sort A > A.sorted
sort B > B.sorted
diff -u A.sorted B.sorted | grep '^-'
答案 2 :(得分:1)
'diff'程序是标准的unix程序,用于查看文件之间的差异。
% cat A
a
b
c
d
% cat B
a
b
e
% diff A B
3,4c3
< c
< d
---
> e
使用简单的grep和cut,可以选择A中的行,而不是B中的行。请注意,剪切相当简单,行中的空格会将其抛弃......但概念就在那里。
% diff A B | grep '^<' | cut -f2 -d" "
c
d