我希望就此问题获得一些专家意见。
我有两个文本文件,一个非常大(~GB)和另一个小(~MB)。这些文件基本上每行都有信息。我可以说更大的文件有关于较小文件的信息子集。文件中的每一行都被组织为由空格分类的元组,并通过查看这两个文件中的一个或多个列来找到diff。这两个文件都基于这样的列(文档ID)进行排序。
我通过在文档ID和行号上保留索引并在较大的文件中随机访问该行来启动差异来实现它。但这种方法很慢。我想知道这种情况的任何好机制。
提前致谢。
答案 0 :(得分:0)
如果已知文件按相同的顺序按相同的顺序排序,并且共享公共密钥的行应该完全匹配,则comm
可能是您想要的 - 它有标记允许您只显示两个文件之间通用的行,或者只显示一个文件中的行而不显示另一个文件中的行。