我正在尝试将samtools
的使用集成到C程序中。这个application以stdin
中名为BAM,例如的二进制格式读取数据:
$ cat foo.bam | samtools view -h -
...
(我意识到这是对cat
的无用的使用,但我只是展示如何在命令行上将BAM文件的字节传送到samtools
。这些字节可能来自其他上游过程。)
在C程序中,我想将unsigned char
个字节的块写入samtools
二进制文件,同时在处理这些字节后从samtools
捕获标准输出。
由于我无法使用popen()
同时写入和读取流程,因此我研究了使用公开提供的popen2()
实现,这些实现似乎是为了支持这一点。
我编写了以下测试代码,该代码尝试将位于同一目录中的BAM文件的write()
4 kB块字节尝试到samtools
进程。然后从read()
的输出samtools
个字节到行缓冲区,打印到标准错误:
#include <sys/types.h>
#include <fcntl.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <unistd.h>
#define READ 0
#define WRITE 1
pid_t popen2(const char *command, int *infp, int *outfp)
{
int p_stdin[2], p_stdout[2];
pid_t pid;
if (pipe(p_stdin) != 0 || pipe(p_stdout) != 0)
return -1;
pid = fork();
if (pid < 0)
return pid;
else if (pid == 0)
{
close(p_stdin[WRITE]);
dup2(p_stdin[READ], READ);
close(p_stdout[READ]);
dup2(p_stdout[WRITE], WRITE);
execl("/bin/sh", "sh", "-c", command, NULL);
perror("execl");
exit(1);
}
if (infp == NULL)
close(p_stdin[WRITE]);
else
*infp = p_stdin[WRITE];
if (outfp == NULL)
close(p_stdout[READ]);
else
*outfp = p_stdout[READ];
return pid;
}
int main(int argc, char **argv)
{
int infp, outfp;
/* set up samtools to read from stdin */
if (popen2("samtools view -h -", &infp, &outfp) <= 0) {
printf("Unable to exec samtools\n");
exit(1);
}
const char *fn = "foo.bam";
FILE *fp = NULL;
fp = fopen(fn, "r");
if (!fp)
exit(-1);
unsigned char buf[4096];
char line_buf[65536] = {0};
while(1) {
size_t n_bytes = fread(buf, sizeof(buf[0]), sizeof(buf), fp);
fprintf(stderr, "read\t-> %08zu bytes from fp\n", n_bytes);
write(infp, buf, n_bytes);
fprintf(stderr, "wrote\t-> %08zu bytes to samtools process\n", n_bytes);
read(outfp, line_buf, sizeof(line_buf));
fprintf(stderr, "output\t-> \n%s\n", line_buf);
memset(line_buf, '\0', sizeof(line_buf));
if (feof(fp) || ferror(fp)) {
break;
}
}
return 0;
}
(对于foo.bam
的本地副本,这里是我用于测试的二进制文件的link。但是任何BAM文件都可以用于测试目的。)
编译:
$ cc -Wall test_bam.c -o test_bam
问题是该程序在write()
调用后挂起:
$ ./test_bam
read -> 00004096 bytes from fp
wrote -> 00004096 bytes to samtools process
[bam_header_read] EOF marker is absent. The input is probably truncated.
如果我在close()
调用之后立即infp
write()
变量,那么循环会在挂起之前再进行一次迭代:
...
write(infp, buf, n_bytes);
close(infp); /* <---------- added after the write() call */
fprintf(stderr, "wrote\t-> %08zu bytes to samtools process\n", n_bytes);
...
使用close()
声明:
$ ./test_bam
read -> 00004096 bytes from fp
wrote -> 00004096 bytes to samtools process
[bam_header_read] EOF marker is absent. The input is probably truncated.
[main_samview] truncated file.
output ->
@HD VN:1.0 SO:coordinate
@SQ SN:seq1 LN:5000
@SQ SN:seq2 LN:5000
@CO Example of SAM/BAM file format.
read -> 00004096 bytes from fp
wrote -> 00004096 bytes to samtools process
通过这个更改,如果我在命令行上运行samtools
,我会得到一些我原本希望获得的输出,但如上所述,该过程再次挂起。
如何使用popen2()
以块的形式写入和读取数据到内部缓冲区?如果无法做到这一点,popen2()
是否有替代方案可以更好地完成此任务?
答案 0 :(得分:1)
作为pipe
的替代方案,为什么不通过samtools
与socket
进行沟通?检查samtools
来源,文件knetfile.c
表示samtools
有套接字通信可用:
#include "knetfile.h"
/* In winsock.h, the type of a socket is SOCKET, which is: "typedef
* u_int SOCKET". An invalid SOCKET is: "(SOCKET)(~0)", or signed
* integer -1. In knetfile.c, I use "int" for socket type
* throughout. This should be improved to avoid confusion.
*
* In Linux/Mac, recv() and read() do almost the same thing. You can see
* in the header file that netread() is simply an alias of read(). In
* Windows, however, they are different and using recv() is mandatory.
*/
这可能比使用pipe2
提供更好的选择。
答案 1 :(得分:-2)
此问题与popen2
的特定实现无关。另请注意,在OS X上,popen
允许您打开双向管道,这在其他BSD系统上也可能是这样。如果这是可移植的,那么您需要对popen
是否允许双向管道(或类似于配置检查的东西)进行配置检查。
您需要将管道切换到非阻塞模式,并在无限循环中在read
和write
个呼叫之间切换。这样的循环,为了在samtools
进程繁忙时不浪费CPU,需要使用select
,poll
或阻止文件描述符变为&#34的类似机制;购&#34; (要读取更多数据,或准备接受写入数据)。
请参阅this question获取一些灵感。