我一直在尝试调整我的python函数来计算字母组而不是单个字母,我有点麻烦。这是我必须计算单个字母的代码:
my_seq = "CTAAAGTCAACCTTCGGTTGACCTTGAAAGGGCCTTGGGAACCTTCGGTTGACCTTGAGGGTTCCCTAAGGGTT"
def count_letters(str):
counts = {}
for c in str:
if c in counts:
counts[c]+=1
else:
counts[c]=1
return counts
counts = count_letters(my_seq)
print(counts)
该功能当前为每个字母吐出计数。现在打印出来:
{'C': 23, 'T': 30, 'G': 30, 'A': 20}
理想情况下,我希望打印这样的内容:
{'CTA': 2, 'TAG': 3, 'CGC': 1, 'GAG': 2 ... }
我对python很新,这证明很难。
谢谢!
答案 0 :(得分:8)
使用collections.Counter
可以很快完成此操作。
from collections import Counter
s = "CTAACAAC"
def chunk_string(s, n):
return [s[i:i+n] for i in range(len(s)-n+1)]
counter = Counter(chunk_string(s, 3))
# Counter({'AAC': 2, 'ACA': 1, 'CAA': 1, 'CTA': 1, 'TAA': 1})
修改:详细说明chunk_string
:
它需要一个字符串s
和一个块大小n
作为参数。每个s[i:i+n]
都是n
个字符长的字符串的一部分。循环遍历有效索引,其中字符串可以被切片(0
到len(s)-n
)。然后将所有这些切片分组到列表推导中。等效方法是:
def chunk_string(s, n):
chunks = []
last_index = len(s) - n
for i in range(0, last_index + 1):
chunks.append(s[i:i+n])
return chunks
答案 1 :(得分:1)
这基本上是Jared Goguen的第一个发布的答案,但是在回复OP的评论时,没有导入模块的可能方式:
>>> m
'CTAAAGTCAACCTTCGGTTGACCTTGAGGGTTCCCTAAGGGTTGGGGATGACCCTTGGGTCTAAAGTCAACCTTCGGTTGACCTTGAGGGTTCCCTAAGGGTT'
>>> l = [m[i:i+3] for i in range(len(m)-2)]
>>>
>>> d = {}
>>>
>>> for k in set(l):
d[k] = l.count(k)
>>> d
{'AAG': 4, 'GGA': 1, 'AAA': 2, 'TAA': 4, 'AGG': 4, 'AGT': 2, 'GGG': 7, 'ACC': 5, 'CGG': 2, 'GGT': 7, 'TCC': 2, 'TGA': 5, 'CAA': 2, 'TGG': 2, 'GTC': 3, 'AAC': 2, 'ATG': 1, 'CTT': 5, 'TCA': 2, 'CCT': 7, 'CCC': 3, 'GTT': 6, 'TTG': 6, 'GAT': 1, 'GAC': 3, 'TCG': 2, 'GAG': 2, 'CTA': 4, 'TTC': 4, 'TCT': 1}
或者如果你是一个衬里的粉丝:
>>> d = {k:l.count(k) for k in set(l)}