Question

你好我对BioStrings的使用非常新，但是我可以看到它的力量的一瞥。我希望有人可以帮助我开始：

我将一个fastafile加载到一个XStringSet类对象

中

genes <- readDNAStringSet(File = "filename", format = "fasta", use.names = T)

我搜索特定的字符串：

view <- vmatchPatter(pattern = "CCGGA", genes)
matches <- unlist(view, recursive = T, use.names = T)
m <- as.matrix(matches)

我知道有一个包含匹配所有位置的整齐矩阵。使用以下代码获取特定基因匹配的上下文相对容易：

subseq(genes["genename",], start = m["genename",1], width = 20)

然而，我确信有一种非常快速的方法可以快速获得所有基因的所有背景。还考虑了某种DNA序列中可能的多重匹配

有人可以开始我吗？

Answer 1

我发现解决方案是半工作的，因为它忽略了多次点击。我确信有更多的语义解决方案是Biostrings不可或缺的，但到目前为止它对我有用：

subseq(genes[rownames(m),], start = m[rownames(m),1], width = 20) ### for multiple genes