你好我对BioStrings的使用非常新,但是我可以看到它的力量的一瞥。我希望有人可以帮助我开始:
我将一个fastafile加载到一个XStringSet类对象
中genes <- readDNAStringSet(File = "filename", format = "fasta", use.names = T)
我搜索特定的字符串:
view <- vmatchPatter(pattern = "CCGGA", genes)
matches <- unlist(view, recursive = T, use.names = T)
m <- as.matrix(matches)
我知道有一个包含匹配所有位置的整齐矩阵。使用以下代码获取特定基因匹配的上下文相对容易:
subseq(genes["genename",], start = m["genename",1], width = 20)
然而,我确信有一种非常快速的方法可以快速获得所有基因的所有背景。还考虑了某种DNA序列中可能的多重匹配
有人可以开始我吗?
答案 0 :(得分:0)
我发现解决方案是半工作的,因为它忽略了多次点击。我确信有更多的语义解决方案是Biostrings不可或缺的,但到目前为止它对我有用:
subseq(genes[rownames(m),], start = m[rownames(m),1], width = 20) ### for multiple genes