计算dna序列中的图案

时间:2016-12-05 19:38:30

标签: scoring dna-sequence

我有这些序列:

GCAGGCATAGTCGGAACTGCTCTAAGCCTATTAATTCGAGCTGAGCTAAGCCAGCCTGGGGCTCTGCTCGGAGATGA
AGTGGGCTTGTTGGGACTGGTCTTTCTTTATTAATTCGTTTTGAGTTAGGCACTGTTGGAGTTTTATTAG---ATAA
GCAGGAATAGTTGGAACCGCCCTTAGCTTATTAATTCGAGCAGAACTCAGCCAACCTGGTGCCTTATTAGGGGATGA
GCTGGCATAGTAGGAACTGCCCTTAGCCTTTTAATTCGAGCAGAGCTCAGTCAACCCGGAGCCCTGCTCGGAGATGA
GCAGGAATAGTTGGAACTGCACTAAGCCTTTTAATTCGAGCTGAACTAAGCCAACCCGGAGCATTACTTGGAGACGA

它们实际上会更长,但是并不重要。

我想估计给定基序数的序列的给定值。

我想在给定的序列中计算一个(数量)motif / s,如"ATCGCGCGCGCTTTAAA",然后使用该数字来估计该序列的值。

我知道您可以使用逻辑问题来询问给定序列是否具有主题,但我想计算它们。

由于

1 个答案:

答案 0 :(得分:0)

EMBOSS Fuzznuc:http://emboss.sourceforge.net/apps/release/6.6/emboss/apps/fuzznuc.html

  

fuzznuc在核苷酸序列中搜索指定的PROSITE样式模式。这种模式是要找到的序列长度(通常很短)的规范。他们可以指定搜索精确序列,或者它们可以允许各种歧义,匹配可变长度的序列和序列的重复子部分。从文件中读取一个或多个核苷酸序列。输出是标准的EMBOSS报告文件,其中包括任何匹配的位置和分数等数据。

对于生物信息学问题,您应该询问biostars.org