Question

每个大小为TB的两个文件。文件比较工具将file1的i行与

进行比较文件2的

i行。如果它们相同则打印。哪种数据结构合适。

Answer 1

您需要能够一次缓冲至少一行。这是一种方式：

While neither file is at EOF:
     Read lines A and B from files one and two (each)
     If lines are identical, print one of them

翻译成合适的编程语言，问题就解决了。

请注意，不涉及任何奇特的数据结构。

Answer 2

简单的逻辑是从文件中一次读取一行并匹配.. 就像

虽然 line1 不等于 EOF file1 且 line2 不等于 EOF file2：比较 line1 和 line2

顺便说一句，您必须确定一行可以包含多少最大字符，以便您可以相应地更改缓冲区大小.. 否则，请尝试使用大数据概念 Spark 框架，让您的工作更轻松。