我有一个DNA序列,并希望使用Python获得它的反向补码。它位于CSV文件的其中一列中,我想将反向补码写入同一文件中的另一列。棘手的部分是,有一些单元格不同于A,T,G和C.我能够通过这段代码获得反向补充:
def complement(seq):
complement = {'A': 'T', 'C': 'G', 'G': 'C', 'T': 'A'}
bases = list(seq)
bases = [complement[base] for base in bases]
return ''.join(bases)
def reverse_complement(s):
return complement(s[::-1])
print "Reverse Complement:"
print(reverse_complement("TCGGGCCC"))
但是,当我尝试使用下面的代码找到补充词典中不存在的项目时,我只是获得了最后一个基础的补充。它不会迭代。我想知道如何解决它。
def complement(seq):
complement = {'A': 'T', 'C': 'G', 'G': 'C', 'T': 'A'}
bases = list(seq)
for element in bases:
if element not in complement:
print element
letters = [complement[base] for base in element]
return ''.join(letters)
def reverse_complement(seq):
return complement(seq[::-1])
print "Reverse Complement:"
print(reverse_complement("TCGGGCCCCX"))
答案 0 :(得分:23)
其他答案非常好,但如果你打算处理真正的DNA序列,我建议你Biopython。如果你遇到像“ - ”,“*”或不确定的字符怎么办?如果您想进一步操作序列怎么办?你想为每种文件格式创建一个解析器吗?
您要求的代码非常简单:
from Bio.Seq import Seq
seq = Seq("TCGGGCCC")
print seq.reverse_complement()
# GGGCCCGA
现在,如果你想进行另一次转换:
print seq.complement()
print seq.transcribe()
print seq.translate()
输出
AGCCCGGG
UCGGGCCC
SG
如果您遇到奇怪的字符,则无需继续向您的程序添加代码。 Biopython处理它:
seq = Seq("TCGGGCCCX")
print seq.reverse_complement()
# XGGGCCCGA
答案 1 :(得分:15)
通常,生成器表达式比原始代码更简单,并避免创建额外的列表对象。如果可以有多个字符插入,请与其他答案一起使用。
complement = {'A': 'T', 'C': 'G', 'G': 'C', 'T': 'A'}
seq = "TCGGGCCC"
reverse_complement = "".join(complement.get(base, base) for base in reversed(seq))
答案 2 :(得分:9)
import string
old_chars = "ACGT"
replace_chars = "TGCA"
tab = string.maketrans(old_chars,replace_chars)
print "AAAACCCGGT".translate(tab)[::-1]
会给你反向补码= A GGGTTTT
答案 3 :(得分:3)
如果字符不在字典中,则字典的get
方法允许您指定默认值。作为预处理步骤,我会映射您的所有非ATGC'基于单个字母(或标点符号或数字或任何不会出现在序列中的东西),然后反转序列,然后将单个字母替换为原始字母。或者,您可以先将其撤消,然后使用sni
搜索并替换ins
之类的内容。
alt_map = {'ins':'0'}
complement = {'A': 'T', 'C': 'G', 'G': 'C', 'T': 'A'}
def reverse_complement(seq):
for k,v in alt_map.iteritems():
seq = seq.replace(k,v)
bases = list(seq)
bases = reversed([complement.get(base,base) for base in bases])
bases = ''.join(bases)
for k,v in alt_map.iteritems():
bases = bases.replace(v,k)
return bases
>>> seq = "TCGGinsGCCC"
>>> print "Reverse Complement:"
>>> print(reverse_complement(seq))
GGGCinsCCGA
答案 4 :(得分:0)
def ReverseComplement(Pattern):
revcomp = []
x = len(Pattern)
for i in Pattern:
x = x - 1
revcomp.append(Pattern[x])
return ''.join(revcomp)
# this if for the compliment
def compliment(Nucleotide):
comp = []
for i in Nucleotide:
if i == "T":
comp.append("A")
if i == "A":
comp.append("T")
if i == "G":
comp.append("C")
if i == "C":
comp.append("G")
return ''.join(comp)
答案 5 :(得分:0)
尝试下面的代码,
complement = {'A': 'T', 'C': 'G', 'G': 'C', 'T': 'A'}
seq = "TCGGGCCC"
reverse_complement = "".join(complement.get(base, base) for base in reversed(seq))
答案 6 :(得分:0)
最快的一种逆向补形如下:
def rev_compl(st):
nn = {'A': 'T', 'C': 'G', 'G': 'C', 'T': 'A'}
return "".join(nn[n] for n in reversed(st))
答案 7 :(得分:0)
还要考虑简并碱基:
def rev_compl(seq):
BASES ='NRWMBDACGTHVKSY'
return ''.join([BASES[-j] for j in [BASES.find(i) for i in seq][::-1]])