我使用了大量的直方图。特别地,这些直方图是沿着人类基因组上的区段的碱基调用。
沿x轴的每个点是构成DNA的四个含氮碱基(A,C,T,G)之一,y轴代表碱基能够“被称为”(或被识别)的次数通过测序仪机器,以便对基因组进行测序,这简单地确定沿着基因组的每个碱基的身份。
这些直方图中的许多显示大致线性衰减(当机器无法获得足够的读取深度时)从高原状区域降至0或(几乎为0)。当分数降至零时,意味着序列发生器无法确定基础的身份。如果你之前看过双螺旋,那就意味着测序仪无法找出螺旋梯级的一半的识别。基因组的某些区域比其他区域更难以表征。能够明确地识别具有大数量的基数的基数(或x数据点),大约为> = 100。例如,如果一个基数共有250个呼叫,并且我们有24个T呼叫,1个呼叫,1个呼叫,我们称之为T.具有0个基本呼叫的区域是关注的,因为我们已经从邻近地区推断出低读区域的特征是什么。是否有一种简单的算法可以为这些图分配反映这种趋势的分数?有关示例histo,请参阅box.net/shared/nbygq2x03u。
答案 0 :(得分:1)
您可以使用读取深度为0的基数计数...该线的斜率也可以是一个有用的指标(陡峭的负斜率=从高原下降)。