将大型排序数据文件插入数据库

时间:2012-01-30 22:23:55

标签: database bulkinsert bioinformatics sorted

我有大量(~100GB)含有DNA序列的文件。它们在前两列上排序。例如:

chr  position    allele    coverage   otherStuff
1    1000        A         10         ...
1    1001        C          1         ...
2      10        A         10         ...
X    1000        G          3         ...
Y    1000        A         13         ...

我想将它们加载到数据库中,因此我可以更有效地查询它们(目前,我进行全面扫描以找到某个位置,但是因为它已经排序,所以应该可以在O中执行它(记录n))。我之前使用过MySQL的'load data infile',但是如果我想在chr和position上创建一个索引,它会忽略数据已经排序并再次排序的事实。

有解决方法吗?我可以说服MySQL(或任何其他数据库,我不受MySQL限制)我的数据是否已被排序?

提前致谢!

1 个答案:

答案 0 :(得分:2)