我有大量(~100GB)含有DNA序列的文件。它们在前两列上排序。例如:
chr position allele coverage otherStuff
1 1000 A 10 ...
1 1001 C 1 ...
2 10 A 10 ...
X 1000 G 3 ...
Y 1000 A 13 ...
我想将它们加载到数据库中,因此我可以更有效地查询它们(目前,我进行全面扫描以找到某个位置,但是因为它已经排序,所以应该可以在O中执行它(记录n))。我之前使用过MySQL的'load data infile',但是如果我想在chr和position上创建一个索引,它会忽略数据已经排序并再次排序的事实。
有解决方法吗?我可以说服MySQL(或任何其他数据库,我不受MySQL限制)我的数据是否已被排序?
提前致谢!
答案 0 :(得分:2)
对于那些基因组位置,您应使用Kent & amp;描述的 binning 索引。 http://genome.cshlp.org/content/12/6/996.full
中的al。另请参阅http://genomewiki.ucsc.edu/index.php/Bin_indexing_system和http://biostar.stackexchange.com/questions/957/the-bin-column-used-by-sam-ucsc