Biostrings:使用带有vmatchPattern结果的XStringSet类对象的子查询

时间:2013-12-20 19:17:40

标签: r bioinformatics

你好我对BioStrings的使用非常新,但是我可以看到它的力量的一瞥。我希望有人可以帮助我开始:

我将一个fastafile加载到一个XStringSet类对象

genes <- readDNAStringSet(File = "filename", format = "fasta", use.names = T)

我搜索特定的字符串:

view <- vmatchPatter(pattern = "CCGGA", genes)
matches <- unlist(view, recursive = T, use.names = T)
m <- as.matrix(matches)

我知道有一个包含匹配所有位置的整齐矩阵。使用以下代码获取特定基因匹配的上下文相对容易:

subseq(genes["genename",], start = m["genename",1], width = 20)

然而,我确信有一种非常快速的方法可以快速获得所有基因的所有背景。还考虑了某种DNA序列中可能的多重匹配

有人可以开始我吗?

1 个答案:

答案 0 :(得分:0)

我发现解决方案是半工作的,因为它忽略了多次点击。我确信有更多的语义解决方案是Biostrings不可或缺的,但到目前为止它对我有用:

subseq(genes[rownames(m),], start = m[rownames(m),1], width = 20) ### for multiple genes