C#TPL:可以在任意步骤重启失败的管道吗?

时间:2016-10-17 20:29:17

标签: c# task-parallel-library pipeline tpl-dataflow

我有一个数据处理工作,包含大约20个连续步骤。所有步骤都属于以下三个类别之一:

  1. 做一些文件操作
  2. 从数据库导入/导出数据
  3. 拨打第三方网络API
  4. 我使用示例herehere将代码从一个冗长,糟糕的方法重构为管道模式。所有步骤都是TransformBlock,例如

    var stepThirteenPostToWebApi = new TransformBlock<FileInfo, System.Guid>(async csv =>
    {
    dynamic task = await ApiUtils.SubmitData(csv.FullName);
    return task.guid;
    });
    

    代码大部分时间都在工作,但有时候管道中的一个步骤因任何原因而失败 - 让我们说在20的步骤6中无法读取损坏的文件(只是一个例子 - 任何步骤可能会失败)。管道会停止运行进一步的任务。

    然而,第三方Web API引入了一项挑战 - 无论我们执行所有20个步骤还是仅执行第一个步骤,我们都会对我们发起的每项工作收费。

    我希望能够解决问题步骤中出现的任何问题(再次,对于我们的示例,让我说我在20的步骤6中修复了损坏的文件),然后在步骤6中进行备份。第三方Web API具有每个作业的GUID,并且是异步的,因此应该没问题 - 在问题修复后,它将很乐意让作业恢复剩余的步骤。

    我的问题:假设该步骤的先决条件有效,是否有可能(如果可行的话?)设计可以在任何步骤开始的管道?

    看起来像是:

    1. 作业在步骤6中失败,并将步骤5记录为最后一个成功的步骤
    2. 一个人出现并修复导致步骤6失败的任何事情
    3. 在步骤6启动新管道
    4. 我意识到采用StartAtStep2()StartAtStep3()StartAtStep4()方法的蛮力方式。这似乎不是一个好的设计,但我对这种模式有点新意,所以也许这是可以接受的。

1 个答案:

答案 0 :(得分:3)

蛮力方式并不是那么糟糕,例如上面的代码只需要

bool StartAtStepThirteen(FileInfo csv) 
{ 
    return stepThirteenPostToWebApi.Post(csv); 
}

链的设置应该是与链的执行不同的方法。您应该将stepThirteenPostToWebApi保存在代表整个链的类中的类级变量中,链的设置可以在类的构造函数中完成。

这是该过程的简单3步版本。当发生错误而不是错误的任务链时,我记录错误并沿链传递null以获得无效的条目。您可以使该log方法引发一个事件,然后用户可以决定如何处理错误的条目。

public class WorkChain
{
    private readonly TransformBlock<string, FileInfo> stepOneGetFileInfo;
    private readonly TransformBlock<FileInfo, System.Guid?> stepTwoPostToWebApi;
    private readonly ActionBlock<System.Guid?> stepThreeDisplayIdToUser;

    public WorkChain()
    {
        stepOneGetFileInfo = new TransformBlock<string, FileInfo>(new Func<string, FileInfo>(GetFileInfo));
        stepTwoPostToWebApi = new TransformBlock<FileInfo, System.Guid?>(new Func<FileInfo, Task<Guid?>>(PostToWebApi));
        stepThreeDisplayIdToUser = new ActionBlock<System.Guid?>(new Action<Guid?>(DisplayIdToUser));

        stepOneGetFileInfo.LinkTo(stepTwoPostToWebApi, new DataflowLinkOptions() {PropagateCompletion = true});
        stepTwoPostToWebApi.LinkTo(stepThreeDisplayIdToUser, new DataflowLinkOptions() {PropagateCompletion = true});
    }

    public void PostToStepOne(string path)
    {
        bool result = stepOneGetFileInfo.Post(path);
        if (!result)
        {
            throw new InvalidOperationException("Failed to post to stepOneGetFileInfo");
        }
    }

    public void PostToStepTwo(FileInfo csv)
    {
        bool result = stepTwoPostToWebApi.Post(csv);
        if (!result)
        {
            throw new InvalidOperationException("Failed to post to stepTwoPostToWebApi");
        }
    }

    public void PostToStepThree(Guid id)
    {
        bool result = stepThreeDisplayIdToUser.Post(id);
        if (!result)
        {
            throw new InvalidOperationException("Failed to post to stepThreeDisplayIdToUser");
        }
    }

    public void CompleteAdding()
    {
        stepOneGetFileInfo.Complete();
    }

    public Task Completion { get { return stepThreeDisplayIdToUser.Completion; } }


    private FileInfo GetFileInfo(string path)
    {
        try
        {
            return new FileInfo(path);
        }
        catch (Exception ex)
        {
            LogGetFileInfoError(ex, path);
            return null;
        }

    }

    private async Task<Guid?> PostToWebApi(FileInfo csv)
    {
        if (csv == null)
            return null;
        try
        {
            dynamic task = await ApiUtils.SubmitData(csv.FullName);
            return task.guid;
        }
        catch (Exception ex)
        {
            LogPostToWebApiError(ex, csv);
            return null;
        }
    }

    private void DisplayIdToUser(Guid? obj)
    {
        if(obj == null)
            return;

        Console.WriteLine(obj.Value);
    }

}