应用错误收集

时间：2010-06-30 12:15:51

标签： windows distributed-computing hpc cluster-computing

我们的目标是在集群上实现分布式系统，该集群将使用大量存储I / O执行资源消耗的基于图像的计算，具有以下特征：

我们发现Windows HPC Server 2008（HPCS）R2的概念与我们的需求非常接近。但是，有一些关键的缺点：

这是我的问题：有没有人知道和/或有过分布式计算框架的经验可以帮助我们？我们正在使用Windows。

答案 0 :(得分：6)

我会看一下Condor高吞吐量计算项目。它支持Windows（以及Linux和OSX）客户端和服务器，使用DAGman处理任务之间的复杂依赖关系，并且可以暂停（甚至移动）任务。我有基于Condor的系统经验，可以扩展到大学校园内的数千台机器。

答案 1 :(得分：3)

Platform LSF将完成您需要的一切。它在Windows上运行。它是商业的，可以在支持下购买。

是。 1.有一个专用的经理计算机节点和最多100个计算节点。群集必须易于扩展。

是 2.它围绕工作任务概念构建。一份工作可能有一到十万个任务。

是 3.由管理员节点上的用户启动的作业会导致在计算节点上创建任务。

是 4.任务即时创建其他任务。

是 5.某些任务可能会运行几分钟，而其他任务可能需要几个小时。

是 6.任务根据依赖关系层次结构运行，可以动态更新。

是 7.作业可能会暂停并稍后恢复。

是 8.每项任务都需要CPU（核心），内存和本地硬盘空间方面的特定资源。在安排任务时，经理应该意识到这一点。

是 9.任务将其进度和结果告诉经理。

是 10.经理知道任务是否存在或被绞死。

答案 2 :(得分：0)

你看过Beowulf了吗？有大量的发行版可供选择，还有很多自定义选项。你应该能够找到满足你需求的东西......

答案 3 :(得分：0)

我会推荐Beowulf，因为Beowulf的行为更像是一台机器，而不是很多工作站。

答案 4 :(得分：0)

尝试gridgain。这应该使运行时添加节点变得非常容易，并且您可以使用jmx接口监视/管理集群

答案 5 :(得分：0)

如果您不介意在云中托管项目，可能需要查看Windows Azure / Appfabric。 AFAIK它允许您通过工作流分配您的作业，并且您可以动态添加更多的工作机器来处理您的作业，因为负载增加。

答案 6 :(得分：0)

您绝对可以使用Data Synapse Grid Server来解决此类问题。

`10。经理知道任务是否存在或被绞死。的是

答案 7 :(得分：-1)

你检查了SunGrid Engine吗？自从我使用它以来已经很长时间了，我从来没有将它用于它的全部功能，但这是我的理解。

` 10.经理知道任务是否存在或被绞死。的是