我通过删除一些for循环和使用数组来提高代码速度。现在最慢的步骤是生成随机列表。
背景:我在染色体上有许多突变,我想要执行1000个随机染色体"染色体"具有相同长度和相同数量的突变,但它们的位置是随机的。
这是我目前正在运行以生成这些随机突变位置的内容:
iterations=1000
Chr_size=1000000
num_mut=500
randbps=[]
for k in range(iterations):
listed=np.random.choice(range(Chr_size),num_mut,replace=False)
randbps.append(listed)
我想做一些类似于this question
中所涵盖的内容np.random.choice(range(Chr_size),size=(num_mut,iterations),replace=False)
然而,没有替换适用于整个阵列。
进一步的背景:在后面的脚本中,我浏览每个随机染色体并计算给定窗口中的突变数量:
for l in range(len(randbps)):
arr=np.asarray(randbps[l])
for i in range(chr_last_window[f])[::step]:
counter=((i < arr) & (arr < i+window)).sum()
答案 0 :(得分:1)
根据this solution
中使用的技巧,这是一种在随机元素数组上使用argsort/argpartition
来模拟numpy.random.choice without replacement
给我们randbps
的方法作为2D数组 -
np.random.rand(iterations,Chr_size).argpartition(num_mut)[:,:num_mut]
运行时测试 -
In [2]: def original_app(iterations,Chr_size,num_mut):
...: randbps=[]
...: for k in range(iterations):
...: listed=np.random.choice(range(Chr_size),num_mut,replace=False)
...: randbps.append(listed)
...: return randbps
...:
In [3]: # Input params (scaled down version of params listed in question)
...: iterations=100
...: Chr_size=100000
...: num=50
...:
In [4]: %timeit original_app(iterations,Chr_size,num)
1 loops, best of 3: 1.53 s per loop
In [5]: %timeit np.random.rand(iterations,Chr_size).argpartition(num)[:,:num]
1 loops, best of 3: 424 ms per loop
答案 1 :(得分:1)
我不知道np.random.choice是如何实现的,但我猜它是针对一般情况进行了优化的。另一方面,您的数字不太可能产生相同的序列。对于这种情况,集合可能更有效,从头开始构建:
import random
def gen_2d(iterations, Chr_size, num_mut):
randbps = set()
while len(randbps) < iterations:
listed = set()
while len(listed) < num_mut:
listed.add(random.choice(range(Chr_size)))
randbps.add(tuple(sorted(listed)))
return np.array(list(randbps))
此函数以空集开始,在范围内生成单个数字(Chr_size)并将该数字添加到集合中。由于集合的属性,它不能再次添加相同的数字。对于randbps也是如此,因此randbps的每个元素也是唯一的。
仅对np.random.choice和gen_2d进行一次迭代:
iterations=1000
Chr_size=1000000
num_mut=500
%timeit np.random.choice(range(Chr_size),num_mut,replace=False)
10 loops, best of 3: 141 ms per loop
%timeit gen_2d(1, Chr_size, num_mut)
1000 loops, best of 3: 647 µs per loop