常见重复序列核苷酸的高效数据存储

时间:2019-02-17 18:44:14

标签: algorithm binary data-storage dna-sequence computer-science-theory

我正在研究一个有趣的问题,它是寻找一种更有效的方法来存储人类疟疾寄生虫的基因组,我认为这对于收集我们的一些见解会很有用!

所以这是背景信息:假设我们仅使用2位来存储基因组的所有4个核苷酸(A,C,T,G),但是由于基因组仍然超长,我们知道它占用了一个吨的空间。但是,我们知道80%的基因组是A或T-如何利用这些知识来更有效地存储基因组?

现在我正在考虑一些想法:

  1. 找到一些方法来编码A的大字符串或T的大字符串-这将需要2位以上,但是如果字符串特别大,则可以减小大小。例如,如果“ 01”是“ T”的代码,则“ 1101”可以是“ 3 T”的代码(在前两位之后使用普通二进制系统)。这将为我们节省两位。
  2. 只需将A存储为0,将T存储为1,以减少这些字母使用的位数。

还有其他人有什么好的主意可以使这种数据存储尽可能高效吗?我希望听到他们的声音并进行讨论!

0 个答案:

没有答案