应用错误收集

我正在研究一个有趣的问题，它是寻找一种更有效的方法来存储人类疟疾寄生虫的基因组，我认为这对于收集我们的一些见解会很有用！

所以这是背景信息：假设我们仅使用2位来存储基因组的所有4个核苷酸（A，C，T，G），但是由于基因组仍然超长，我们知道它占用了一个吨的空间。但是，我们知道80％的基因组是A或T-如何利用这些知识来更有效地存储基因组？

现在我正在考虑一些想法：

找到一些方法来编码A的大字符串或T的大字符串-这将需要2位以上，但是如果字符串特别大，则可以减小大小。例如，如果“ 01”是“ T”的代码，则“ 1101”可以是“ 3 T”的代码（在前两位之后使用普通二进制系统）。这将为我们节省两位。
只需将A存储为0，将T存储为1，以减少这些字母使用的位数。

还有其他人有什么好的主意可以使这种数据存储尽可能高效吗？我希望听到他们的声音并进行讨论！