我正在创建一个python管道来处理非常大的二进制文件(即50+ GB)。它们是BAM文件,一种用于表示基因组的格式。目前,我的脚本受到两个计算量非常大的子流程调用的瓶颈。
这两个命令占用管道每次运行的大约80%的计算时间,因此我需要找出一种加快此过程的方法。他们从同一文件读取数据。我想知道提高效率的最佳途径。基本上,是否有某种特定的并发方式最有效?还是有其他有趣的方式做到这一点?
谢谢!
命令:
subprocess.call('samtools视图-b -f 68 {}> {} _ unmapped_one.bam'.format(self.file_path,self.file_prefix),shell = True)
subprocess.call('samtools视图-b -f 132 {}> {} _unmapped_two.bam'.format(self.file_path,self.file_prefix),shell = True)
答案 0 :(得分:0)