如何重构此ForEach(..)代码以使用Parallel.ForEach(..)?

时间:2011-04-19 01:50:30

标签: c# .net amazon-s3 parallel-processing task-parallel-library

我有一个我希望从一个来源复制到另一个来源的对象列表。使用It was suggested that I could speed things up

Parallel.ForEach

如何重构以下pseduo代码以利用Parallel.ForEach(..)

var foos = GetFoos().ToList();
foreach(var foo in foos)
{
    CopyObjectFromOldBucketToNewBucket(foo, oldBucket, newBucket, 
        accessKeyId, secretAccessKey);
}

CopyObjectFromOldBucketToNewBucket使用Amazon REST API将项目从一个存储桶移动到另一个存储桶。

干杯:)

2 个答案:

答案 0 :(得分:3)

由于您的代码除了foos之外没有任何依赖关系,您只需执行以下操作:

Parallel.ForEach(foos, ( foo => 
{
    CopyObjectFromOldBucketToNewBucket(foo, oldBucket, newBucket, 
                                       accessKeyId, secretAccessKey);
}));

请记住,I / O只能在某种程度上并行化,之后性能可能会降低。

答案 1 :(得分:3)

Parallel实际上并不是最好的选择。 Parallel将并行运行您的代码,但仍会为每个AWS请求使用线程池线程。使用BeginCopyObject方法可以更好地利用资源。这不会耗尽等待响应的线程池线程,但只会在收到响应并需要处理时才使用它。

以下是如何使用Begin / End方法的简化示例。这些并非特定于AWS,而是整个.NET BCL中的模式。

public static CopyFoos() 
{
    var client = new AmazonS3Client(...);
    var foos = GetFoos().ToList();
    var asyncs = new List<IAsyncResult>();
    foreach(var foo in foos)
    {
        var request = new CopyObjectRequest { ... };  

        asyncs.Add(client.BeginCopyObject(request, EndCopy, client));
    }

    foreach(IAsyncResult ar in asyncs)
    {
        if (!ar.IsCompleted)
        {
            ar.AsyncWaitHandle.WaitOne();
        }
    }
}

private static EndCopy(IAsyncRequest ar) 
{    
    ((AmazonS3Client)ar.AsyncState).EndCopyObject(ar);
}

对于生产代码,您可能希望跟踪已分派的请求数,并且一次只发送一个有限的数量。测试或AWS文档可能会告诉您有多少并发请求是最佳的。

在这种情况下,我们实际上并不需要在请求完成时执行任何操作,因此您可能会跳过EndCopy调用,但这会导致资源泄漏。无论何时调用BeginXxx,都必须调用相应的EndXxx方法。