处理LARGE数据集

时间:2011-02-22 22:07:49

标签: database dataset large-data-volumes

处理LARGE数据集的最佳解决方案是什么 我将txt文件分解为多个文件。 如果我加起来它将是大约100 GB 这些文件只不过是

uniqID1 uniqID2 等

id对 如果我想计算像 1:uniqID的唯一数量等 2:uniqID1链接到的其他ID列表?

什么是最佳解决方案? 如何将这些更新到数据库中?

谢谢你!

1 个答案:

答案 0 :(得分:1)

因此,如果您有一个包含以下列的表:

           id1 varchar(10)   // how long are you ids? are they numeric? text?
           id2 varchar(10)

表格中有大约50亿行,您希望快速回答​​以下问题:

        how many unique values in column id1 are there?
        what is the set of distinct values from id1 where id2 = {some parameter}

关系数据库(支持SQL)和id1上的索引以及id2上的另一个索引的表可以满足您的需要。 SQLite会做这个工作。

编辑:要导入它们,最好将这两个值与值中不会出现的某些字符分开,例如逗号或竖线字符或制表符,每行一对:

         foo|bar
         moo|mar

EDIT2:你不需要关系,但它不会伤害任何东西,如果db是关系型的,你的数据结构更具可扩展性。