制表符分隔文本文件的快速交集,补充和并集?

时间:2011-12-04 20:56:20

标签: shell unix text command-line tab-delimited

有人可以推荐基于unix的快速实用程序(理想情况下用C语言编写),以获得制表符分隔文本文件的高效流式交集/联合吗?例如,允许查询,例如“向我提供文件A中具有列值K但未出现在文件B的任何列K中的所有条目”。

例如,如果文件A是:

bob sally sue
bob mary john

和文件B是:

john sally sue
foo bar quux

然后文件A的补充相对于第2列的B将返回“bob mary john”,因为这是文件B中唯一一个在第2列中没有出现在文件B中的值。

我不想使用数据库,但希望使用基于命令行的实用程序。是awk答案还是有更简单的东西? 感谢。

1 个答案:

答案 0 :(得分:0)

如果它仅用于特定查询,我可能会使用awk,哈希B的2.列并根据哈希过滤A.