标签: algorithm binary data-storage dna-sequence computer-science-theory
我正在研究一个有趣的问题,它是寻找一种更有效的方法来存储人类疟疾寄生虫的基因组,我认为这对于收集我们的一些见解会很有用!
所以这是背景信息:假设我们仅使用2位来存储基因组的所有4个核苷酸(A,C,T,G),但是由于基因组仍然超长,我们知道它占用了一个吨的空间。但是,我们知道80%的基因组是A或T-如何利用这些知识来更有效地存储基因组?
现在我正在考虑一些想法:
还有其他人有什么好的主意可以使这种数据存储尽可能高效吗?我希望听到他们的声音并进行讨论!