Question

假设我从shell运行以下命令

{ 
samtools view -HS header.sam;           # command1
samtools view input.bam 1:1-50000000;   # command2
} | samtools view -bS - > output.bam    # command3

对于那些不熟悉samtools视图的人（因为这是stackoverflow）。这实际上是在创建一个具有新标头的新bam文件。 bam文件通常是大型压缩文件，因此即使在某些情况下通过文件也可能非常耗时。一种替代方法是进行command2，然后使用samtools reheader来切换标头。这会两次通过大文件。上面的命令一次性通过bam，这对于较大的bam文件是有用的（即使压缩时它们也会大于20GB - WGS）。

我的问题是如何使用subprocess在python中实现这种类型的命令。

我有以下内容：

fh_bam = open('output.bam', 'w')
params_0 = [ "samtools", "view", "-HS", "header.sam" ]
params_1 = [ "samtools", "view", "input.bam", "1:1-50000000"]
params_2 = [ "samtools", "view", "-bS", "-" ]
sub_0 = subprocess.Popen(params_0, stderr=subprocess.PIPE, stdout=subprocess.PIPE)
sub_1 = subprocess.Popen(params_1, stderr=subprocess.PIPE, stdout=subprocess.PIPE)
### SOMEHOW APPEND sub_1.stdout to sub_0.stdout
sub_2 = subprocess.Popen(params_2, stdin=appended.stdout, stdout=fh_bam)

非常感谢任何帮助。感谢。

Answer 1

如果你已经在字符串中有shell命令，那么你可以按原样运行它：

#!/usr/bin/env python
from subprocess import check_call

check_call(r"""
{ 
samtools view -HS header.sam;           # command1
samtools view input.bam 1:1-50000000;   # command2
} | samtools view -bS - > output.bam    # command3
""", shell=True)

在Python中模拟管道：

#!/usr/bin/env python
from subprocess import Popen, PIPE

# start command3 to get stdin pipe, redirect output to the file
with open('output.bam', 'wb', 0) as output_file:
    command3 = Popen("samtools view -bS -".split(), 
                     stdin=PIPE, stdout=output_file)
# start command1 with its stdout redirected to command3 stdin
command1 = Popen('samtools view -HS header.sam'.split(),
                 stdout=command3.stdin)
rc_command1 = command1.wait() #NOTE: command3.stdin is not closed, no SIGPIPE or a write error if command3 dies
# start command2 after command1 finishes
command2 = Popen('samtools view input.bam 1:1-50000000'.split(),
                 stdout=command3.stdin)
command3.stdin.close() # inform command2 if command3 dies (SIGPIPE or a write error)
rc_command2 = command2.wait()
rc_command3 = command3.wait()

Answer 2

（我不能悲伤地评论，但这个答案是对cmidi的答案的评论，如果有人可以移动它，我们将不胜感激！ - PS：那个答案现已删除......）

Marco明确表示这些命令会产生大量输出，大约20GB。如果你使用communic（），它将等待进程终止，这意味着＆＃39; fd＆＃39;描述符需要保存那么大量的数据。实际上，OS会在此期间将数据刷新到磁盘，除非您的计算机具有超过20GB的可用RAM。因此，您最终将中间数据写入磁盘，原始作者希望避免这种情况。为sirlark的答案+1！

Answer 3

我认为由于所涉及文件的大小，连接内存中前两个子进程的输出是不可行的。我建议将前两个子过程的输出包装在一个文件中。看起来你只需要read方法，因为popen只会从stdin文件中读取，而不是读取或写入。下面的代码假定从read返回一个空字符串就足以表明该流处于EOF

class concat(object):
    def __init__(self, f1, f2):
        self.f1 = f1
        self.f2 = f2

    def read(self, *args):
        ret = self.f1.read(*args)
        if ret == '':
            ret = self.f2.read(*args)
        return ret

fh_bam = open('output.bam', 'w')
params_0 = [ "samtools", "view", "-HS", "header.sam" ]
params_1 = [ "samtools", "view", "input.bam", "1:1-50000000"]
params_2 = [ "samtools", "view", "-bS", "-" ]
sub_0 = subprocess.Popen(params_0, stderr=subprocess.PIPE, stdout=subprocess.PIPE)
sub_1 = subprocess.Popen(params_1, stderr=subprocess.PIPE, stdout=subprocess.PIPE)
### Somehow Append sub_1.stdout to sub_0.stdout
sub_2 = subprocess.Popen(params_2, stdin=concat(sub_0.stdout, sub_1.stdout), stdout=fh_bam)

为了澄清，f1.read将阻止，并且仅在管道关闭/ EOF时返回''。 concat.read仅在此发生后尝试从f2读取，因此f1和f2的输出不会交织在一起。当然，重复读取f1的结尾会有轻微的开销，可以通过设置一个标志变量来指示从哪个文件读取来避免这种开销。我怀疑它会显着改善表现。

Answer 4

虽然Popen接受类似文件的对象，但实际上它使用底层文件句柄/描述符，而不是文件对象的读写方法来进行通信，如@ J.F.塞巴斯蒂安正确指出。更好的方法是使用不使用磁盘的管道（os.pipe()）。这允许您将输出流直接连接到另一个进程的输入流，这正是您想要的。问题只是序列化问题，以确保两个源流不交错。

import os
import subprocess

r, w = os.pipe()

fh_bam = open('output.bam', 'w')
params_0 = [ "samtools", "view", "-HS", "header.sam" ]
params_1 = [ "samtools", "view", "input.bam", "1:1-50000000"]
params_2 = [ "samtools", "view", "-bS", "-" ]
sub_sink = subprocess.Popen(params_2, stdin=r, stdout=fh_bam, bufsize=4096)
sub_src1 = subprocess.Popen(params_0, stderr=subprocess.PIPE, stdout=w, bufsize=4096)
sub_src1.communicate()
sub_src2 = subprocess.Popen(params_1, stderr=subprocess.PIPE, stdout=w, bufsize=4096)
sub_src2.communicate()

我们首先打开接收器（管道的读取器），然后使用源进程打开communicate，以避免@Ariel提到的潜在阻塞。这也会强制第一个源进程在第二个源进程有机会写入管道之前完成并在管道上刷新其输出，从而防止交错/破坏输出。您可以使用bufsize值来调整性能。

这正是shell命令正在做的事情。

如何在python中将两个子进程的stdout和管道连接到新子进程的stdin

4 个答案: