应用错误收集

成千上万的读/写器锁在一个进程中

时间：2011-08-06 08:35:10

标签： c++ c synchronization cross-platform semaphore

我目前正在设计一个具有大规模同步模式的C ++跨平台（Linux / Windows）服务器应用程序。我在内部使用boost :: thread作为特定于操作系统的线程的抽象。我的问题是保护数据数组，数组的每个元素都受到独立读/写锁的保护。

我的数组包含 4096个元素。考虑到“Little Book of Semaphores”（第85页）中提出的“编写器优先级读者 - 编写者”问题的解决方案，我的应用程序每个数组元素需要5个信号量。这总共提供了大约20000个信号量（或者，相当于20000个互斥量+ 20000个条件变量）。

我的应用程序的另一个特点是在给定时间内，大多数信号量都不活动（通常有大约32个“客户端”线程在数千个信号量上等待/发送信号）。请注意，由于整个服务器在单个进程中运行，因此我使用轻量级，基于线程的信号量（不是进程间信号量）。

我的问题有两个：

是否建议在单个进程上在Linux和Windows上创建 20000个信号量？嗯，当然，我想情况并非如此......
如果不推荐这种做法，我可以使用什么技术来减少实际信号量的数量，例如：在1个实际信号量的顶部创建 N个“仿真信号量”？我认为这将是一个有趣的解决方案，因为我的大多数信号量在给定时间都处于非活动状态。

提前致谢！

到目前为止的答案摘要

使用数千个信号量不推荐，尤其是从跨平台的角度来看。所以，即使它们不是进程间信号量（它们仍然在Windows下使用句柄）。

解决我的问题的直接方法是将我的数组拆分为例如包含16个元素的64个子数组，以及将每个子数组与一个读/写锁相关联。不幸的是，这引入了很多争用（1个作者会将读取阻止为15个元素）。

深入研究Boost源代码，我发现：

“boost :: mutex”的实现不会在Windows下包装CRITICAL_SECTION对象（但是CreateEvent和ReadWriteBarrier），

“boost :: shared_mutex”使用Windows下的CreateSemaphore（重量级，进程间对象）和

“boost :: shared_mutex”不会在Linux下包装“pthread_rwlock_t”。

这个原因对我来说似乎并不清楚。特别是，在Windows下使用“boost :: shared_mutex”的进程间对象对我来说似乎不太理想。

到目前为止开放问题的摘要

如何在1个实际信号量的顶部创建一组N个“模拟信号量”，保持模拟信号量之间的争用尽可能小？

“boost :: mutex”和“boost :: shared_mutex”如何与其原生对应物（CRITICAL_SECTION和pthread_rwlock_t）进行比较？

3 个答案:

答案 0 :(得分：1)

不建议这样做。你不应该这样做，因为在Windows中，它将消耗每个信号量1个句柄对象。一个过程只能管理特定数量的Handles对象。线程/进程和其他Windows对象可能需要使用Handle对象和will 如果他们不能崩溃。这与Linux中的类似文件描述符概念。

将4096个元素拆分为30个（例如）140个元素元素并为每个140组分配一个信号量。然后30 （在这个例子中）线程将尝试访问那些30集和他们将根据每个140组信号量进行同步。

答案 1 :(得分：1)

我会从Windows的角度告诉你我对它的看法。我在为Windows编写服务器应用程序方面经验丰富。

首先，为单个进程创建20k信号量绝对没有问题。它是一个非常轻量级的内核对象。甚至是“进程间”信号量。

但是我看到你的设计存在另一个问题。您应该知道，对内核对象（例如信号量/互斥锁）执行的每个操作都涉及繁重的内核模式事务（a.k.a。系统调用）。即使根本没有碰撞，每次这样的调用都可能花费你大约2k个CPU周期。

因此，您可能会发现自己只是在调用同步方法时花费了大部分处理器时间。

相反，为了同步线程，可以使用互锁操作。它们的成本要低得多（通常是几十个CPU周期）。

还有一个名为 critical section 的对象。它是一种互锁操作数和内核对象的混合体（如果存在实际碰撞则使用它）。您应该检查通常锁定元素的时间。如果它通常是一个短持续时间的锁 - 只需使用关键部分，忘记复杂的读写锁。

如果您处理长时间锁定，并且执行需要读写锁定，并且您发现在内核模式事务中花费了大量CPU，请考虑创建拥有（或试图找到现有的）类似混合的锁的实现。

答案 2 :(得分：1)

在Linux上，你应该最终不要自己实现锁，而是使用posix_rwlock_t。

拥有4096个这样的元素数组不应该出现任何特殊问题。 POSIX锁结构在Linux中非常有效地实现。特别是它们在可能的情况下在“快速路径”上使用原子操作，并且当该特定锁上存在拥塞时仅进入系统调用（特别是对于FUTEX）。因此，如果你相对仔细地实现任何线程一次只能拥有1个或2个锁，那么Linux上的约束只能由你的工作线程总数给出，而不是由对象本身的数量给出。