应用错误收集

ZeroMQ订阅者无法使用1000多个发布者进行初始化

时间：2012-12-03 13:22:30

标签： c# .net zeromq

我正在尝试评估ZeroMQ以获得更大的监控和数据收集系统。在较小的规模上，一切都很好，但加大负荷和规模似乎有点棘手。

现在我正在使用C＃包装器（clrzmq，3.0.0-rc1）来创建发布者和订阅者应用程序。我将Publisher套接字（1个套接字，1个上下文）绑定到1000个端点（localhost +一系列端口），并让订阅者应用程序套接字（再次为1个套接字，1个上下文）绑定到发布者端点。

这有时会起作用，有时也不行（我猜这与过程以某种方式处理的最大套接字数有关）。它似乎取决于我启动应用程序的顺序，但我无法确定。我唯一看到的是讨厌的SEHExceptions，根本不包含任何细节。如果我创建简单的控制台应用程序，我有时会看到低级C ++断言，如：

断言失败：fds.size（）＆lt; = FD_SETSIZE（...... \ src \ select.cpp：70）
断言失败：权限被拒绝（...... \ src \ signaler.cpp：281）
断言失败：通过对等方重置连接（...... \ src \ signaler.cpp：124）

对我不是很有帮助。在C＃包装器中，Context创建失败。它甚至没有机会开始连接甚至创建套接字。我希望通过抛出异常来处理低级ZeroMQ错误，也许我还没有理解如何处理错误。

我现在的问题是：

如何创建一个（某种程度上）真实的测试设置来在一台机器上模拟1000个独立的发布者（在真实世界中1个发布者= 1个机器）和另一台机器上的几个订阅者，所有这些都使用C＃。这甚至可能吗？
更重要的是，如何在C＃代码中捕获ZeroMQ错误以便能够理解出现了什么问题？

由于ZeroMQ似乎相当稳定和成熟，我很难相信1000个发布者应该是一个问题。但是，我需要比当前可用的更好的错误支持（除非我完全错过了这里），以便使用ZeroMQ而不是C＃。

更新

在进入源代码后，我最终得到zmq_assert(...)，导致RaiseException (0x40000015, EXCEPTION_NONCONTINUABLE, 1, extra_info);。在将原始断言语句转储到控制台之后，这将突然终止应用程序。这似乎有点苛刻，但鉴于它真的无法恢复，可能是最好的选择。但是，一个更好的错误消息不会受到伤害。不是每个人都知道fds.size () <= FD_SETSIZE的含义。源代码中的注释提供了一些线索，在错误消息中包含该注释会很好。无论如何，鉴于我的应用程序不是一个控制台应用程序，这只留下一个未处理的SEHException，它似乎甚至不包含断言语句或行/文件信息。我想知道我将创建多少其他错误，这将导致其他类似的密码错误。

3 个答案:

答案 0 :(得分：3)

在进一步研究之后，似乎默认的套接字数量设置为1024.C＃包装器在Context对象上有一个属性应该能够更改此设置但是它不起作用，至少不如预期的那样。此外，本机zmqlib在上下文对象上没有此设置。

运行像描述中的设置似乎不可能，至少不使用clrzmq C＃ZeroMQ包装器。我通过在另一台机器上运行500个发布者和在另一台机器上运行另外500个1000个订阅者来解决它。这很好用，没有任何错误。

另一个话题也有点令人失望。当达到最大套接字数时，ZeroMQ会抛出一个无法捕获的异常，导致应用程序突然崩溃。这是一种快速失败的方法，避免任何进一步的数据/状态损坏，但不幸的是，也很少留下导致应用程序死亡的事情的线索。从其他帖子来看，当发生这种情况时，收集验尸数据似乎非常困难。在C＃代码中捕获异常似乎不可能或非常困难，并且挂钩到stdout以捕获打印的断言似乎也很难实现（如果我们不是从命令提示符运行，在这种情况下，断言消息在之前打印申请死亡。）

总而言之，当ZeroMQ通过zmq_assert（...）调用终止时，这会在非控制台C＃设置中进行低级故障排除和事后分析。希望这是一个极端的例子。并非所有故障模式都会以这种突然的方式导致终止。

答案 1 :(得分：2)

默认的FD_SETSIZE是1024（在MSVC libzmq项目中定义），因此您将在测试用例的大约一半时间内完成此操作。另一个断言就是这样。

将你的libzmq项目中的这个增加到4K或8K，事情应该会更好。

至于assert（）调用，肯定是在Windows上太残酷了。在Linux上，这提供了一个不错的堆栈转储和足够的信息来跟踪问题。随意改进断言宏，使其更聪明，例如启动调试器。无论如何，如果你打了一个断言，你就无法合理地继续下去。

当FD设置已满时断言，那可以更好地处理。如果您对C / C ++一无所知，请随时查看代码。我们确实依赖于人们的补丁。

此外，如果您觉得1024太小，请随意在项目中提出这个问题并将补丁发送给我们。

答案 2 :(得分：1)

快速而肮脏地查看此问题表明您为计算机创建了太多套接字连接。从MSDN中查看此link on the max number of sockets。你得到的错误看起来很可疑，因为这可能是你错误的可能来源。

老实说，拥有1000个独立的发布商似乎正在使用zmq解决这个问题。为什么不拥有1个发布者并使用“名称空间”，并让订阅者SUBSCRIBE分配出订阅者获得的消息所需的内容。