每个大小为TB的两个文件。文件比较工具将file1的i
行与
i
行。如果它们相同则打印。哪种数据结构合适。
答案 0 :(得分:2)
您需要能够一次缓冲至少一行。这是一种方式:
While neither file is at EOF:
Read lines A and B from files one and two (each)
If lines are identical, print one of them
翻译成合适的编程语言,问题就解决了。
请注意,不涉及任何奇特的数据结构。
答案 1 :(得分:1)
简单的逻辑是从文件中一次读取一行并匹配.. 就像
虽然 line1 不等于 EOF file1 且 line2 不等于 EOF file2: 比较 line1 和 line2
顺便说一句,您必须确定一行可以包含多少最大字符,以便您可以相应地更改缓冲区大小.. 否则,请尝试使用大数据概念 Spark 框架,让您的工作更轻松。