如何压缩由DNA序列组成的字母表

时间:2011-12-19 18:13:27

标签: c# compression huffman-code lossless-compression

我想用压缩技术而不是Huffman和Adaptive Huffman算法压缩DNA序列,我使用c#作为编程语言。 任何人都可以带我到算法。 注意:我想要无损压缩

1 个答案:

答案 0 :(得分:6)

对于DNA序列,您有4种可能的状态,即

  • Guanine(G, 00
  • 胞嘧啶(C, 01
  • 腺嘌呤(A, 10
  • 胸腺嘧啶(T, 11

您可以使用两位来存储这四种可能的状态,并将值括在括号中。 使用这种简单的方法,您将能够在一个字节中存储四个不同的值。


<强>更新
正如@kol所提到的那样,您几乎可以使用任何压缩算法来进一步缩小数据。 目前.NET附带两种压缩方法(Deflate and GZip),更多可以在SharpZipLib开源库中找到