向具有离散值(A,G,T,C)的基因组数据添加噪声

时间:2018-03-13 08:16:52

标签: string bioinformatics autoencoder dna-sequence

由于基因组序列的长度变化很大,我一直在尝试使用去噪自动编码器来获得任何给定序列的紧凑表示。我的预期输入是核苷酸序列(字母-A,G,T,C),例如,#34; AAAAGGAATTTCTCTGGGG ...."。

对于图像,添加噪声很容易,因为它是一个连续的空间。但是在诸如此类的离散场景中,为我的输入添加噪声会是一个好策略吗?

我的第一个想法是随机替换一些核苷酸和#34; N"这意味着在测序过程中无法准确识别该位置的核苷酸。但是改变甚至一个核苷酸会导致完全不同的序列,不同于增加小噪声的图像不会改变图像的视觉效果。如果这是对的,请告诉我,或者有更好的方法,我不知道。

1 个答案:

答案 0 :(得分:1)

我不确定这是否会对您有所帮助或进一步使您的问题复杂化,但在生物学方面,人们通常会使用FASTQ文件来存储生物序列及其相应的Phred quality scores。 Phred质量得分是通过自动DNA测序产生的核碱基鉴定质量的量度。

例如,如果Phred将质量得分指定为30,则错误调用此基数的可能性为1/1000。

Phred quality scores shown on a DNA sequence trace 来自Wikipedia

的公共领域图片

因此,您可以在不改变序列的情况下为Phred质量得分(即基本调用的正确概率)添加噪声。

另请参阅this paragraph有关压缩FASTQ文件的当前工作。