Question

处理LARGE数据集的最佳解决方案是什么我将txt文件分解为多个文件。如果我加起来它将是大约100 GB 这些文件只不过是

uniqID1 uniqID2 等

id对如果我想计算像 1：uniqID的唯一数量等 2：uniqID1链接到的其他ID列表？

什么是最佳解决方案？如何将这些更新到数据库中？

谢谢你！

Answer 1

因此，如果您有一个包含以下列的表：

           id1 varchar(10)   // how long are you ids? are they numeric? text?
           id2 varchar(10)

表格中有大约50亿行，您希望快速回答以下问题：

        how many unique values in column id1 are there?
        what is the set of distinct values from id1 where id2 = {some parameter}

关系数据库（支持SQL）和id1上的索引以及id2上的另一个索引的表可以满足您的需要。 SQLite会做这个工作。

编辑：要导入它们，最好将这两个值与值中不会出现的某些字符分开，例如逗号或竖线字符或制表符，每行一对：

         foo|bar
         moo|mar

EDIT2：你不需要关系，但它不会伤害任何东西，如果db是关系型的，你的数据结构更具可扩展性。