Question

我正在编写一些代码来处理大量数据，我认为让Parallel.ForEach为它创建的每个线程创建一个文件是很有用的，所以输出不需要同步（由我至少）。

它看起来像这样：

Parallel.ForEach(vals,
    new ParallelOptions { MaxDegreeOfParallelism = 8 },
    ()=>GetWriter(), // returns a new BinaryWriter backed by a file with a guid name
    (item, state, writer)=>
    {
        if(something)
        {
            state.Break();
            return writer;
        }
        List<Result> results = new List<Result>();

        foreach(var subItem in item.SubItems)
            results.Add(ProcessItem(subItem));

        if(results.Count > 0)
        {
            foreach(var result in results)
                result.Write(writer);
        }
        return writer;
    },
    (writer)=>writer.Dispose());

我预计会发生多达8个文件，并且会在整个运行时间内持续存在。然后在整个ForEach调用结束时，每个都将被处理。真正发生的是localInit似乎每个项目都被调用一次，所以我最终得到了数百个文件。作者也会被处理在每个处理项目的末尾。

这表明发生了同样的事情：

var vals = Enumerable.Range(0, 10000000).ToArray();
        long sum = 0;
        Parallel.ForEach(vals,
            new ParallelOptions { MaxDegreeOfParallelism = 8 },
            () => { Console.WriteLine("init " + Thread.CurrentThread.ManagedThreadId); return 0L; },
            (i, state, common) =>
            {
                Thread.Sleep(10);
                return common + i;
            },
                (common) => Interlocked.Add(ref sum, common));

我明白了：

init 10
init 14
init 11
init 13
init 12
init 14
init 11
init 12
init 13
init 11
... // hundreds of lines over < 30 seconds
init 14
init 11
init 18
init 17
init 10
init 11
init 14
init 11
init 14
init 11
init 18

注意：如果我省略了Thread.Sleep调用，它有时似乎正常运行＆＃34;＆＃34;。对于它决定在我的电脑上使用的4个线程，localInit只被调用一次。然而，并非每次都如此。

这是函数的期望行为吗？在幕后发生了什么导致它这样做？最后，什么是获得我想要的功能的好方法，ThreadLocal？

顺便说一下，这是在.NET 4.5上。

Answer 1

Parallel.ForEach无法正常工作。重要的是要注意，该方法建立在Task类之上， Task与Thread之间的关系不是1：1 。例如，您可以拥有在2个托管线程上运行的10个任务。

尝试在方法体中使用此行而不是当前行：

Console.WriteLine("ThreadId {0} -- TaskId {1} ",
                  Thread.CurrentThread.ManagedThreadId, Task.CurrentId);

您应该看到ThreadId将在许多不同的任务中重复使用，以其唯一的ID显示。如果您离开或增加了对Thread.Sleep的通话，您会看到更多内容。

Parallel.ForEach方法如何工作的（非常）基本思想是，你的枚举创建了一系列将运行枚举的过程部分的任务，这样做的方式很大程度上取决于输入。还有一些特殊的逻辑可以检查任务超过一定毫秒数而不完成的情况。如果这种情况属实，那么可能会产生一项新任务以帮助减轻工作。

如果您查看了Parallel.ForEach中localinit功能的文档，您会注意到它是returns the initial state of the local data for each _task_，而不是每个线程

您可能会问为什么会产生超过8个任务。答案类似于最后一个，在ParallelOptions.MaxDegreeOfParallelism的文档中找到。

从默认值更改MaxDegreeOfParallelism仅限制将使用多少并发任务。

此限制仅适用于并发任务的数量，而不是在整个处理期间将创建的任务数量的硬限制。正如我上面提到的，有时候会产生一个单独的任务，这导致你的localinit函数被多次调用并将数百个文件写入磁盘。

写入磁盘肯定是一种具有一点延迟的操作，特别是如果您正在使用同步I / O.当磁盘操作发生时，它会阻塞整个线程; Thread.Sleep也是如此。如果Task执行此操作，它将阻止当前正在运行的线程，并且不会在其上运行任何其他任务。通常在这些情况下，调度程序会生成一个新的Task来帮助弥补这个问题。

最后，什么是获得我想要的功能的好方法，ThreadLocal？

底线是线程本地人对Parallel.ForEach没有意义，因为你没有处理线程;你正在处理任务。可以在任务之间共享本地线程，因为许多任务可以同时使用同一个线程。此外，任务的本地线程可能会改变执行中期，因为调度程序可以抢占它，然后继续执行不同的线程，这将在本地具有不同的线程。

我不确定最好的方法，但您可以依靠localinit函数传递您喜欢的任何资源，只允许在一个资源中使用资源一次线程。您可以使用localfinally将其标记为不再使用，因此可以获取其他任务。这就是那些方法的设计目的;每个方法仅在每个生成的任务中调用一次（请参阅Parallel.ForEach MSDN文档的备注部分）。

您也可以自己拆分工作，并创建自己的一组线程并运行您的工作。但是，在我看来，这不是一个想法，因为Parallel类已经为你做了这么重的事。

Answer 2

您所看到的是尝试尽快完成工作的实施。

为此，它尝试使用不同数量的任务来最大化吞吐量。它从线程池中获取一定数量的线程并运行您的工作。然后尝试添加和删除线程以查看发生的情况。它会继续这样做，直到你完成所有工作。

算法非常愚蠢，因为它不知道你的工作是使用了大量的CPU，还是大量的IO，或者即使有很多同步并且线程相互阻塞。它所能做的就是添加和删除线程，并测量每个工作单元的完成速度。

这意味着它会在注入和退出线程时不断调用您的localInit和localFinally函数 - 这就是您所找到的。

不幸的是，没有简单的方法来控制这种算法。 Parallel.ForEach是一个高级构造，故意隐藏大部分线程管理代码。

使用ThreadLocal可能会有所帮助，但它依赖于当Parallel.ForEach请求新线程时线程池将重用相同的线程这一事实。这不是保证 - 事实上，线程池不太可能正好使用8个线程进行整个调用。这意味着您将再次创建超出必要的文件。

保证的一件事是Parallel.ForEach在任何时候都不会使用超过MaxDegreeOfParallelism个线程。

您可以通过创建固定大小的“池”文件来使用此功能，这些文件可以在特定时间运行的任何线程重用。您知道只有MaxDegreeOfParallelism个线程可以同时运行，因此您可以在调用ForEach之前创建该数量的文件。然后在localInit中抓取一个并将其发布到localFinally。

当然，你必须自己编写这个池，它必须是线程安全的，因为它将被同时调用。但是，一个简单的锁定策略应该足够好，因为与锁的成本相比，线程不会很快注入和退出。

Answer 3

根据MSDN，localInit方法会针对每个任务调用一次，而不是针对每个线程调用：

对参与循环执行的每个任务调用一次localInit委托，并为每个任务返回初始本地状态。

Answer 4

创建线程时调用localInit。如果body需要这么长时间，它必须创建另一个线程并挂起当前线程，如果它创建另一个线程，则调用localInit

当Parallel.ForEach调用它时，它会创建与MaxDegreeOfParallelism值一样多的线程，例如：

var k = Enumerable.Range(0, 1);
Parallel.ForEach(k,new ParallelOptions(){MaxDegreeOfParallelism = 4}.....

首先调用

时创建4个线程

为什么在Parallel.ForEach中每个线程多次调用localInit Func

4 个答案: