比较基于第1列的两个文件,打印一个文件的唯一部分

时间:2018-04-26 17:55:36

标签: awk grep diff comm

我有两个文件看起来像这样:

文件1:

RYR2 29 70  0.376583106063  4.77084855376
MUC16 51 94 0.481067457376  3.9233164551
DCAF4L2 0 13    0.0691414496833 3.05307268261
USH2A 32 62 0.481792717087  2.81864194236
ZFHX4 14 37 0.371576262084  2.81030548752

file2的:

A26B2
RYR2
MUC16
ACTL9

我需要根据第一列比较它们,并且只打印那些不在第二列的第一个文件的行,所以输出应该是:

DCAF4L2 0 13    0.0691414496833 3.05307268261
USH2A 32 62 0.481792717087  2.81864194236
ZFHX4 14 37 0.371576262084  2.81030548752

我试过grep:

 grep -vFxf file2 file1

用awk:

awk 'NR==FNR {exclude[$0];next} !($0 in exclude)' file 2 file1

COMM:

comm -23 <(sort file1) <(sort file2)

没有效果

1 个答案:

答案 0 :(得分:0)

您可以使用

grep -vFf file2 file1

此外,grep -vf file2 file1也可以使用,但是如果file2字符串包含*[应该作为文字字符读取的字符串,则可能会遇到麻烦因为他们应该逃脱。 F使grep将这些字符串视为固定字符串。

注释

  • -v:反转匹配。
  • -f file:从文件中获取正则表达式。
  • -F:将模式解释为固定字符串列表(而不是正则表达式),并用换行符分隔,其中任何一个都应匹配。

因此,它从file2中读取正则表达式并将其应用于file1,并且一旦找到匹配项,则由于反向搜索而不会输出该行。这足够了,因为仅第一列包含字母数字,其余仅包含数字数据。

为什么您的命令不起作用

-x--line-regexp的缩写)表示 Select only those matches that exactly match the whole line

此外,有关grep options in grep documentation的更多信息。