C ++ 11中的async(launch :: async)是否会使线程池过时以避免昂贵的线程创建?

时间:2013-01-16 04:23:21

标签: c++ multithreading asynchronous c++11 threadpool

这与这个问题松散相关:Are std::thread pooled in C++11?。虽然问题不同,但意图是一样的:

问题1:使用您自己的(或第三方库)线程池以避免昂贵的线程创建仍然有意义吗?

另一个问题的结论是,你不能依靠std::thread汇总(它可能或可能不是)。但是,std::async(launch::async)似乎有更高的合并机会。

它不认为它是由标准强制,但恕我直言我希望所有好的C ++ 11实现将使用线程池如果线程创建缓慢。只有在创建新线程成本低廉的平台上,我才会期望它们总是产生一个新线程。

问题2:这正是我的想法,但我没有事实证明这一点。我很可能会弄错。这是一种有根据的猜测吗?

最后,在这里,我提供了一些示例代码,首先展示了我认为async(launch::async)可以表达线程创建的方式:

示例1:

 thread t([]{ f(); });
 // ...
 t.join();

变为

 auto future = async(launch::async, []{ f(); });
 // ...
 future.wait();

示例2:消防和忘记线程

 thread([]{ f(); }).detach();

变为

 // a bit clumsy...
 auto dummy = async(launch::async, []{ f(); });

 // ... but I hope soon it can be simplified to
 async(launch::async, []{ f(); });

问题3:您希望async版本为thread版本吗?


其余部分不再是问题的一部分,只是为了澄清:

为什么必须将返回值分配给虚拟变量?

不幸的是,当前的C ++ 11标准强制您捕获std::async的返回值,否则执行析构函数,直到操作终止为止。有些人认为这是标准中的错误(例如,由Herb Sutter提出)。

来自cppreference.com的这个例子很好地说明了这一点:

{
  std::async(std::launch::async, []{ f(); });
  std::async(std::launch::async, []{ g(); });  // does not run until f() completes
}

另一个澄清:

我知道线程池可能有其他合法用途,但在这个问题中我只对避免昂贵的线程创建成本感兴趣

我认为仍然存在线程池非常有用的情况,特别是如果您需要更多的资源控制。 例如,服务器可能决定同时处理固定数量的请求,以保证快速响应时间并提高内存使用的可预测性。这里的线程池应该没问题。

线程局部变量也可能是您自己的线程池的参数,但我不确定它是否与实际相关:

  • 创建一个std::thread的新线程,但没有初始化的线程局部变量。也许这不是你想要的。
  • 在由async生成的线程中,对我来说有点不清楚,因为该线程可以被重用。根据我的理解,不保证线程局部变量可以重置,但我可能会弄错。
  • 另一方面,使用您自己的(固定大小)线程池可以让您完全控制它,如果您真的需要它。

1 个答案:

答案 0 :(得分:39)

问题1

我从原版改了这个,因为原版是错的。我的印象是Linux thread creation was very cheap并且在测试之后我确定新线程中的函数调用与正常函数的开销是巨大的。创建一个处理函数调用的线程的开销比普通函数调用慢10000或者多一倍。所以,如果你发出了很多小函数调用,那么线程池可能是个好主意。

很明显,g ++附带的标准C ++库没有线程池。但我绝对可以看到他们的情况。即使有必须通过某种线程间队列推送调用的开销,它也可能比启动新线程更便宜。标准允许这样做。

恕我直言,Linux内核人员应该努力使线程创建比现在更便宜。但是,标准C ++库还应考虑使用池来实现launch::async | launch::deferred

OP是正确的,使用::std::thread启动一个线程当然会强制创建一个新线程,而不是使用池中的一个。所以::std::async(::std::launch::async, ...)是首选。

问题2

是的,基本上这个'隐含'会启动一个帖子。但实际上,发生的事情仍然非常明显。所以我并不认为隐含的这个词是一个特别好的词。

我也不相信在破坏之前迫使你等待回归必然是一个错误。我不知道你应该使用async调用来创建不希望返回的'守护进程'线程。如果他们被期望返回,那么忽视例外就不行了。

问题3

就个人而言,我喜欢线程发布是明确的。我非常重视岛屿,你可以保证串行访问。否则你最终会遇到可变状态,你总是需要在某个地方包装一个互斥锁并记住要使用它。

我比工作队列模型更喜欢'未来'模型,因为有'串行岛',所以你可以更有效地处理可变状态。

但实际上,这取决于你正在做什么。

性能测试

所以,我测试了各种调用方法的性能,并在运行Fedora 29的8核(AMD Ryzen 7 2700X)系统上测试了这些数字,这些系统使用clang版本7.0.1和libc ++(不是libstdc ++)编译:< / p>

   Do nothing calls per second:   35365257                                      
        Empty calls per second:   35210682                                      
   New thread calls per second:      62356                                      
 Async launch calls per second:      68869                                      
Worker thread calls per second:     970415                                      

原生,在我的MacBook Pro 15“(英特尔(R)Core(TM)i7-7820HQ CPU @ 2.90GHz)和OSX 10.13.6下的Apple LLVM version 10.0.0 (clang-1000.10.44.4),我明白了:

   Do nothing calls per second:   22078079
        Empty calls per second:   21847547
   New thread calls per second:      43326
 Async launch calls per second:      58684
Worker thread calls per second:    2053775

对于工作线程,我启动了一个线程,然后使用无锁队列将请求发送到另一个线程,然后等待“已完成”回复被发回。

“什么都不做”只是为了测试测试工具的开销。

很明显,启动线程的开销很大。甚至具有线程间队列的工作线程也会使VM中的Fedora 25减少20倍左右,而本机OS X上则减少大约8个。

我创建了一个Bitbucket项目,其中包含我用于性能测试的代码。可在此处找到:https://bitbucket.org/omnifarious/launch_thread_performance