计算在MATLAB中发现的DNA结合基序与预期的显着性

时间:2015-04-20 21:14:00

标签: matlab sequence analysis dna-sequence

我有一套说,100,基因组功能,我已经创建了一个fasta文件,每个文件周围有500 bp的窗口。我在这些窗口中搜索了一个DNA序列,并在特征集中找到了每个500 bp窗口平均1.5个序列。偶然地,我预计序列每1024bp存在一次,或者平均每500bp窗口的序列约0.49。

我的问题是如何确定我发现的每个特征的1.5个结合位点是否重要,并获得p值?

作为一个跟进,如果我使用相同的100个窗口并搜索具有相同概率的不同序列(1/1024)并确定现在每个窗口平均有0.9个序列,怎么能我确定这与我在上面搜索的序列的1.5有显着差异吗?

作为第二次跟进,如果我在不同的500 bp窗口中搜索上面相同的两个序列(均在平均1/1024碱基对中找到)以获得不同的特征类型(例如,n = 50),如何确定此搜索的结果是否与上述结果有显着差异(特别是如果特征集1和特征集2中序列A和序列B之间的差异很大)?

提前谢谢。

1 个答案:

答案 0 :(得分:0)

我最终使用模拟来回答所有上述问题。产生所需大小的窗口,在这种情况下为500bp,随机基因组序列。在X窗口中搜索图案(其中X =特征集中的个体数量),并与在感兴趣的特征中搜索图案的结果进行比较。重复样本大小等于正在分析的第二个特征集的样本大小。要比较功能,请进行类似的模拟并比较结果。