我正在努力寻找有关HPC群集的一般硬件利用率的综合报告。 Google或Facebook提供了各种有关其云硬件利用率的数据集,但是我可以从HPC中心引用或查看任何类似的报告/数据集。
我的重点是看看如果他们经历像SLURM或Torque这样的粗粮资源管理者,那么动态和长尾工作会受到什么影响。我知道这两个资源管理器都支持细粒度的执行,但是它们没有像Mesos或Yarn这样的资源管理器提供全面的API。
答案 0 :(得分:1)
没有多少HPC中心发布有关其使用情况的详细公开报告。例外情况通常是英国国家HPC设施,它提供了大量有关其历史使用的数据。
当前服务ARCHER从2014年到当前日期发布月度和季度数据(包括使用情况):
http://www.archer.ac.uk/about-archer/reports/
之前的服务,HECToR在2007-2014期间提供了类似的数据:
http://www.hector.ac.uk/about-us/reports/
之前的服务HPCx拥有2002 - 2010年的数据:
http://www.hpcx.ac.uk/projects/reports/
这应该给你大约15年的数据来检查!
答案 1 :(得分:0)
根据定义,HPC力求达到最大利用率。保持资源繁忙,排队等待工作,保持健康的积压。 Resoruce /数据中心的使用,这取决于工作负载的类型。是内存还是计算,还是IO密集型。与其他任何事情一样,构建HPC集群/环境将存在权衡。因此,通常不是每个资源,或整个集群都将得到充分利用。有改进的房间。您对Mesos与传统HPC调度程序的比较是正确的。 Mesos是两级调度程序。它更全面,但这并不能阻止人们使用Slurm或直接使用ad-hoc mpi。这就是我提出与您相同的问题的一个原因,使HPC数据中心更适应不同的工作负载。 ,它可以在传统调度程序之上使用自定义脚本“例如路由器,负载传感器”可以在一定程度上定制和优化HPC资源的利用率。 Univa和IBM LSF都有一些可以实现这一目标的商业自豪感。