应用错误收集

HPC工作研究和硬件利用率报告

时间：2016-12-08 17:04:17

标签： cloud mesos hpc slurm

我正在努力寻找有关HPC群集的一般硬件利用率的综合报告。 Google或Facebook提供了各种有关其云硬件利用率的数据集，但是我可以从HPC中心引用或查看任何类似的报告/数据集。

我的重点是看看如果他们经历像SLURM或Torque这样的粗粮资源管理者，那么动态和长尾工作会受到什么影响。我知道这两个资源管理器都支持细粒度的执行，但是它们没有像Mesos或Yarn这样的资源管理器提供全面的API。

2 个答案:

答案 0 :(得分：1)

没有多少HPC中心发布有关其使用情况的详细公开报告。例外情况通常是英国国家HPC设施，它提供了大量有关其历史使用的数据。

当前服务ARCHER从2014年到当前日期发布月度和季度数据（包括使用情况）：

http://www.archer.ac.uk/about-archer/reports/

之前的服务，HECToR在2007-2014期间提供了类似的数据：

http://www.hector.ac.uk/about-us/reports/

之前的服务HPCx拥有2002 - 2010年的数据：

http://www.hpcx.ac.uk/projects/reports/

这应该给你大约15年的数据来检查！

答案 1 :(得分：0)

根据定义，HPC力求达到最大利用率。保持资源繁忙，排队等待工作，保持健康的积压。 Resoruce /数据中心的使用，这取决于工作负载的类型。是内存还是计算，还是IO密集型。与其他任何事情一样，构建HPC集群/环境将存在权衡。因此，通常不是每个资源，或整个集群都将得到充分利用。有改进的房间。您对Mesos与传统HPC调度程序的比较是正确的。 Mesos是两级调度程序。它更全面，但这并不能阻止人们使用Slurm或直接使用ad-hoc mpi。这就是我提出与您相同的问题的一个原因，使HPC数据中心更适应不同的工作负载。，它可以在传统调度程序之上使用自定义脚本“例如路由器，负载传感器”可以在一定程度上定制和优化HPC资源的利用率。 Univa和IBM LSF都有一些可以实现这一目标的商业自豪感。