Question

在Go中，我正在尝试：

启动子进程
分别从stdout和stderr读取
实施总体超时

经过大量的搜索之后，大多数情况下，我们提出了一些似乎可以完成任务的代码。但是似乎存在一种竞争条件，其中某些输出无法读取。

该问题似乎仅发生在Linux上，而不是Windows。

以下是用google找到的最简单的解决方案，我们尝试创建一个带有超时的上下文：

context.WithTimeout(context.Background(), 10*time.Second)

虽然大多数情况下都可以使用，但我们能够找到永久挂起的案例。子进程的某些方面导致此僵局。（与未与子进程充分分离的孙子孙有关，因此导致子孙从未完全退出。）

此外，似乎在某些情况下，发生超时的情况下返回的error会指示超时，但只会在该过程实际退出后整个超时概念都没用）。

func GetOutputsWithTimeout(command string, args []string, timeout int) (io.ReadCloser, io.ReadCloser, int, error) { start := time.Now() procLogger.Tracef("Initializing %s %+v", command, args) cmd := exec.Command(command, args...) // get pipes to standard output/error stdout, err := cmd.StdoutPipe() if err != nil { return emptyReader(), emptyReader(), -1, fmt.Errorf("cmd.StdoutPipe() error: %+v", err.Error()) } stderr, err := cmd.StderrPipe() if err != nil { return emptyReader(), emptyReader(), -1, fmt.Errorf("cmd.StderrPipe() error: %+v", err.Error()) } // setup buffers to capture standard output and standard error var buf bytes.Buffer var ebuf bytes.Buffer // create a channel to capture any errors from wait done := make(chan error) // create a semaphore to indicate when both pipes are closed var wg sync.WaitGroup wg.Add(2) go func() { if _, err := buf.ReadFrom(stdout); err != nil { procLogger.Debugf("%s: Error Slurping stdout: %+v", command, err) } wg.Done() }() go func() { if _, err := ebuf.ReadFrom(stderr); err != nil { procLogger.Debugf("%s: Error Slurping stderr: %+v", command, err) } wg.Done() }() // start process procLogger.Debugf("Starting %s", command) if err := cmd.Start(); err != nil { procLogger.Errorf("%s: failed to start: %+v", command, err) return emptyReader(), emptyReader(), -1, fmt.Errorf("cmd.Start() error: %+v", err.Error()) } go func() { procLogger.Debugf("Waiting for %s (%d) to finish", command, cmd.Process.Pid) err := cmd.Wait() // this can be 'forced' by the killing of the process procLogger.Tracef("%s finished: errStatus=%+v", command, err) // err could be nil here //notify select of completion, and the status done <- err }() // Wait for timeout or completion. select { // Timed out case <-time.After(time.Duration(timeout) * time.Second): elapsed := time.Since(start) procLogger.Errorf("%s: timeout after %.1f\n", command, elapsed.Seconds()) if err := TerminateTree(cmd); err != nil { return ioutil.NopCloser(&buf), ioutil.NopCloser(&ebuf), -1, fmt.Errorf("failed to kill %s, pid=%d: %+v", command, cmd.Process.Pid, err) } wg.Wait() // this *should* take care of waiting for stdout and stderr to be collected after we killed the process return ioutil.NopCloser(&buf), ioutil.NopCloser(&ebuf), -1, fmt.Errorf("%s: timeout %d s reached, pid=%d process killed", command, timeout, cmd.Process.Pid) //Exited normally or with a non-zero exit code case err := <-done: wg.Wait() // this *should* take care of waiting for stdout and stderr to be collected after the process terminated naturally. elapsed := time.Since(start) procLogger.Tracef("%s: Done after %.1f\n", command, elapsed.Seconds()) rc := -1 // Note that we have to use go1.10 compatible mechanism. if err != nil { procLogger.Tracef("%s exited with error: %+v", command, err) exitErr, ok := err.(*exec.ExitError) if ok { ws := exitErr.Sys().(syscall.WaitStatus) rc = ws.ExitStatus() } procLogger.Debugf("%s exited with status %d", command, rc) return ioutil.NopCloser(&buf), ioutil.NopCloser(&ebuf), rc, fmt.Errorf("%s: process done with error: %+v", command, err) } else { ws := cmd.ProcessState.Sys().(syscall.WaitStatus) rc = ws.ExitStatus() } procLogger.Debugf("%s exited with status %d", command, rc) return ioutil.NopCloser(&buf), ioutil.NopCloser(&ebuf), rc, nil } //NOTREACHED: should not reach this line! }

调用GetOutputsWithTimeout("uname",[]string{"-mpi"},10)将在大多数时间返回预期的单行输出。但是有时它会返回 no output ，好像读取stdout的goroutine不够快就无法“捕获”所有输出（或提前退出？）“大多数时候”强烈建议比赛条件。

我们有时还会从goroutine中看到有关“文件已关闭”的错误（这似乎是在超时情况下发生的，但也会在其他“正常”时间发生）。

我本以为在cmd.Start()之前启动goroutine将确保不会丢失任何输出，并且使用WaitGroup将确保它们都将在读取缓冲区之前完成。

那么我们如何缺少输出？两个“阅读器” goroutine和cmd.Start()之间是否仍然存在竞争条件？我们是否应该使用另外一个WaitGroup来确保这两个正在运行？

还是ReadFrom()的实现存在问题？

请注意，由于较早版本的操作系统存在向后兼容性问题，因此我们目前正在使用go1.10，但go1.12.4会产生相同的效果。
还是我们对此进行了思考，而使用context.WithTimeout()的简单实现就可以了？

Answer 1

但是有时它不会返回任何输出，就像读stdout的goroutine不够快就无法“捕获”所有输出一样

这是不可能的，因为管道不能“丢失”数据。如果该进程正在向stdout写入数据，而Go程序尚未读取，则该进程将阻塞。

解决问题的最简单方法是：

启动goroutine收集stdout，stderr
启动一个杀死进程的计时器
开始该过程
用.Wait（）等待它完成（或被计时器杀死）
如果触发了计时器，则返回超时错误
处理等待错误


func GetOutputsWithTimeout(command string, args []string, timeout int) ([]byte, []byte, int, error) {
    cmd := exec.Command(command, args...)

    // get pipes to standard output/error
    stdout, err := cmd.StdoutPipe()
    if err != nil {
        return nil, nil, -1, fmt.Errorf("cmd.StdoutPipe() error: %+v", err.Error())
    }
    stderr, err := cmd.StderrPipe()
    if err != nil {
        return nil, nil, -1, fmt.Errorf("cmd.StderrPipe() error: %+v", err.Error())
    }

    // setup buffers to capture standard output and standard error
    var stdoutBuf, stderrBuf []byte

    // create 3 goroutines: stdout, stderr, timer.
    // Use a waitgroup to wait.
    var wg sync.WaitGroup
    wg.Add(2)

    go func() {
        var err error
        if stdoutBuf, err = ioutil.ReadAll(stdout); err != nil {
            log.Printf("%s: Error Slurping stdout: %+v", command, err)
        }
        wg.Done()
    }()
    go func() {
        var err error
        if stderrBuf, err = ioutil.ReadAll(stderr); err != nil {
            log.Printf("%s: Error Slurping stderr: %+v", command, err)
        }
        wg.Done()
    }()

    t := time.AfterFunc(time.Duration(timeout)*time.Second, func() {
        cmd.Process.Kill()
    })

    // start process
    if err := cmd.Start(); err != nil {
        t.Stop()
        return nil, nil, -1, fmt.Errorf("cmd.Start() error: %+v", err.Error())
    }

    err = cmd.Wait()
    timedOut := !t.Stop()
    wg.Wait()

    // check if the timer timed out.
    if timedOut {
        return stdoutBuf, stderrBuf, -1,
            fmt.Errorf("%s: timeout %d s reached, pid=%d process killed",
                command, timeout, cmd.Process.Pid)
    }

    if err != nil {
        rc := -1
        if exitErr, ok := err.(*exec.ExitError); ok {
            rc = exitErr.Sys().(syscall.WaitStatus).ExitStatus()
        }
        return stdoutBuf, stderrBuf, rc,
            fmt.Errorf("%s: process done with error: %+v",
                command, err)
    }

    // cmd.Wait docs say that if err == nil, exit code is 0
    return stdoutBuf, stderrBuf, 0, nil
}

种族条件读取子进程的标准输出和标准错误

1 个答案: