我试图解决Rosalind在给定序列中计算核苷酸的基本问题,并将结果返回到列表中。对于那些不熟悉生物信息学的人来说,它只计算4个不同角色的出现次数(' A',' C'' G', ' T')在字符串中。
我希望collections.Counter
成为最快的方法(首先是因为它们声称是高性能的,其次是因为我看到很多人使用它来解决这个特定的问题。)
但令我惊讶的是这种方法是最慢的!
我比较了三种不同的方法,使用timeit
并运行两种类型的实验:
这是我的代码:
import timeit
from collections import Counter
# Method1: using count
def method1(seq):
return [seq.count('A'), seq.count('C'), seq.count('G'), seq.count('T')]
# method 2: using a loop
def method2(seq):
r = [0, 0, 0, 0]
for i in seq:
if i == 'A':
r[0] += 1
elif i == 'C':
r[1] += 1
elif i == 'G':
r[2] += 1
else:
r[3] += 1
return r
# method 3: using Collections.counter
def method3(seq):
counter = Counter(seq)
return [counter['A'], counter['C'], counter['G'], counter['T']]
if __name__ == '__main__':
# Long dummy sequence
long_seq = 'ACAGCATGCA' * 10000000
# Short dummy sequence
short_seq = 'ACAGCATGCA' * 1000
# Test 1: Running a long sequence once
print timeit.timeit("method1(long_seq)", setup='from __main__ import method1, long_seq', number=1)
print timeit.timeit("method2(long_seq)", setup='from __main__ import method2, long_seq', number=1)
print timeit.timeit("method3(long_seq)", setup='from __main__ import method3, long_seq', number=1)
# Test2: Running a short sequence lots of times
print timeit.timeit("method1(short_seq)", setup='from __main__ import method1, short_seq', number=10000)
print timeit.timeit("method2(short_seq)", setup='from __main__ import method2, short_seq', number=10000)
print timeit.timeit("method3(short_seq)", setup='from __main__ import method3, short_seq', number=10000)
结果:
Test1:
Method1: 0.224009990692
Method2: 13.7929501534
Method3: 18.9483819008
Test2:
Method1: 0.224207878113
Method2: 13.8520510197
Method3: 18.9861831665
对于两个实验,方法1 比方法2和3更快 !!
所以我有一系列问题:
我做错了什么,或者确实比其他两种做法慢?有人可以运行相同的代码并分享结果吗?
如果我的结果是正确的,(也许这应该是另一个问题)是否有比使用方法1更快的方法来解决这个问题?
如果count
更快,那么与collections.Counter
的交易是什么?
答案 0 :(得分:15)
这不是因为collections.Counter
速度慢,实际上速度很快,但它是一种通用工具,计算字符只是众多应用程序中的一种。
另一方面,str.count
只计算字符串中的字符数,而
这意味着str.count
可以在底层C - char
数组上工作,同时它可以避免在迭代期间创建新的(或查找现有的)length-1-python-strings(这是什么for
和Counter
确实如此。
只是为此声明添加更多上下文。
字符串存储为包含为python对象的C数组。 str.count
知道字符串是一个连续的数组,因此将你想要的字符转换为C - "字符",然后在本机C代码中迭代数组并检查相等性和最后包装并返回找到的出现次数。
另一方面,for
和Counter
使用python-iteration-protocol。你的字符串的每个字符都将被包装为python-object,然后它(哈希和)在python中对它们进行比较。
所以减速是因为:
Counter
,因为它是在C中重写的)请注意减速的原因类似于Why are Python's arrays slow?的问题。
我做了一些额外的基准测试,以确定collections.Counter
优先于str.count
。为此,我创建了包含不同数量的唯一字符的随机字符串并绘制了性能:
from collections import Counter
import random
import string
characters = string.printable # 100 different printable characters
results_counter = []
results_count = []
nchars = []
for i in range(1, 110, 10):
chars = characters[:i]
string = ''.join(random.choice(chars) for _ in range(10000))
res1 = %timeit -o Counter(string)
res2 = %timeit -o {char: string.count(char) for char in chars}
nchars.append(len(chars))
results_counter.append(res1)
results_count.append(res2)
并使用matplotlib绘制结果:
import matplotlib.pyplot as plt
plt.figure()
plt.plot(nchars, [i.best * 1000 for i in results_counter], label="Counter", c='black')
plt.plot(nchars, [i.best * 1000 for i in results_count], label="str.count", c='red')
plt.xlabel('number of different characters')
plt.ylabel('time to count the chars in a string of length 10000 [ms]')
plt.legend()
Python 3.6的结果非常相似,所以我没有明确列出它们。
因此,如果您想要计算80个不同的字符Counter
变得更快/可比较,因为它只遍历字符串一次而不是像str.count
那样多次遍历字符串。这将完全取决于弦的长度(但测试显示只有非常微小的差异+/- 2%)。
在Python-2.7中collections.Counter
是使用python(而不是C)实现的,速度要慢得多。 str.count
和Counter
的收支平衡点只能通过推断来估算,因为即使有100个不同的字符,str.count
仍然快6倍。
答案 1 :(得分:7)
这里的时差非常简单。这一切都归结为Python中运行的内容以及作为本机代码运行的内容。后者总是会更快,因为它没有大量的评估开销。
现在这已经是为什么四次调用str.count()
比其他任何事情都快的原因。虽然这会迭代字符串四次,但这些循环在本机代码中运行。 str.count
在C中实现,因此开销非常小,速度非常快。要击败它真的很难,特别是当任务很简单时(只看简单的字符平等)。
收集数组中的计数的第二种方法实际上是以下性能较低的版本:
def method4 (seq):
a, c, g, t = 0, 0, 0, 0
for i in seq:
if i == 'A':
a += 1
elif i == 'C':
c += 1
elif i == 'G':
g += 1
else:
t += 1
return [a, c, g, t]
这里,所有四个值都是单个变量,因此更新它们的速度非常快。这实际上比改变列表项快一点。
然而,这里的整体性能“问题”是迭代Python 中的字符串。因此,这将创建一个字符串迭代器,然后将每个字符单独生成为实际的字符串对象。这是一个很大的开销,并且通过在Python 中迭代字符串而工作的每个解决方案的主要原因都会变慢。
同样的问题是collection.Counter
。它是implemented in Python所以即使它非常有效和灵活,它也会遇到同样的问题,因为它在速度方面从未接近原生。
答案 2 :(得分:1)
正如其他人已经指出的,您正在将相当具体的代码与相当一般的代码进行比较。
考虑一下,像在感兴趣的角色上拼出一个循环这样简单的事情已经为您带来了第2个因素,即
def char_counter(text, chars='ACGT'):
return [text.count(char) for char in chars]
%timeit method1(short_seq)
# 100000 loops, best of 3: 18.8 µs per loop
%timeit char_counter(short_seq)
# 10000 loops, best of 3: 40.8 µs per loop
%timeit method1(long_seq)
# 10 loops, best of 3: 172 ms per loop
%timeit char_counter(long_seq)
# 1 loop, best of 3: 374 ms per loop
您的method1()
是最快的,但不是最有效的,因为对于您要检查的每个字符,输入都是完全循环通过的,因此无法利用这样的事实:您可以轻松地将循环快速短路将角色分配给其中一个角色类别。
不幸的是,Python没有提供一种快速的方法来利用问题的特定条件。
但是,您可以使用Cython,然后再胜过method1()
:
%%cython -c-O3 -c-march=native -a
#cython: language_level=3, boundscheck=False, wraparound=False, initializedcheck=False, cdivision=True, infer_types=True
import numpy as np
cdef void _count_acgt(
const unsigned char[::1] text,
unsigned long len_text,
unsigned long[::1] counts):
for i in range(len_text):
if text[i] == b'A':
counts[0] += 1
elif text[i] == b'C':
counts[1] += 1
elif text[i] == b'G':
counts[2] += 1
else:
counts[3] += 1
cpdef ascii_count_acgt(text):
counts = np.zeros(4, dtype=np.uint64)
bin_text = text.encode()
return _count_acgt(bin_text, len(bin_text), counts)
%timeit ascii_count_acgt(short_seq)
# 100000 loops, best of 3: 12.6 µs per loop
%timeit ascii_count_acgt(long_seq)
# 10 loops, best of 3: 140 ms per loop