对于某些背景; 我正在研究一些代码,试图在本地系统上调试集群上运行的代码。代码挂起在群集上而没有退出,这样可以浪费大量的cpu时间(我的错误就是不能很好地监控它)。在350个节点中,68个达到了创建具有等级编号的文件夹的程度,但没有进行任何计算(需要2秒)来在自己的文件夹中创建文件。
我正试图测试它为什么会这样做。代码在我的桌面上工作,将节点(等级)设置为10.我尝试使用350,但这给出了管道错误,这似乎是我的本地配置。
然后我尝试了100个节点。这开始起作用,但我看到RAM增加了,直到我的计算机冻结(64gb)。
我认为这是因为bcast将数据发送到同一系统上的100个节点。但是,群集上是否会出现同样的问题。 Bcast是否制作了相同数据的多个副本(因为它是bcast,它会向所有节点发送相同的数据)。
我读到有一个树系统,bcast用于快速获取所有节点的数据。发生这种情况时,每个节点是从同一个内存地址还是从自己节点上存储的单个副本中读取的。