什么是HPC中的临时空间/文件系统

时间:2015-01-21 11:32:28

标签: filesystems nfs hpc supercomputers lustre

我正在研究HPC应用程序和并行文件系统。我遇到了术语临时空间和临时文件系统。

我无法想象这个临时空间的存在位置。它是在计算节点上作为已挂载的文件系统/暂存还是在主存储空间上。

它的内容是什么。

临时空间是否独立于每个计算节点,或者两个或多个节点可以共享一个暂存空间。

所以我想说我有一个文件123.txt我想要并行处理。暂存空间是否包含此文件的各个部分,否则将复制整个文件。

我很困惑,谷歌上没有任何明确的描述。请指出一些。

非常感谢。

2 个答案:

答案 0 :(得分:3)

这一切都取决于群集的设置方式和用户需求。当您获得对群集的访问权限时,您还应该获得一些有关如何使用它的信息,这些信息应该回答您的大部分问题。

在我使用NFS的其中一个集群上用于长期存储,一些Lustre空间可用于作业暂存空间。所有节点都可以看到NFS和Lustre。每个节点在节点上也有一些暂存空间,只有该节点才能看到。

如果您希望您的作业并行处理123.txt,您可以将123.txt复制到共享临时空间(Lustre),也可以将其复制到作业文件中的每个节点临时空间。

for i in `cat $PBS_NODEFILE | sort -u ` ; do scp 123.txt $i:/scratch ; done

每个节点都有一个副本后,您就可以运行您的工作了。作业完成后,您需要将结果复制到持久存储,因为群集通常会运行脚本来清理临时空间。

答案 1 :(得分:1)

有很多不同的方法可以考虑或部署临时空间或临时文件系统。

假设你有一个linux节点集群,这些节点都有一个硬盘。您可以想象每个节点本地的/ scratch空间。由于操作系统映像相对较小,现在无法获得小于1TB的任何驱动器,因此最终会有一个接近1TB的存储空间供节点使用。

你会对这个节点本地存储做什么?哦,很多事情。可扩展的检查点 - 重启。本地核外业务。

当我第一次开始使用群集时,将所有未使用的空间绑定到并行文件系统似乎是个好主意。 PVFS非常适合这个目的。

让我可以使用所有节点可用的/ scratch并行文件系统。这有一个技术组件(站点部署哪个并行文件系统?)但是还有一个策略组件:保留此文件系统上的数据多长时间?它备份了吗? / scratch通常意味着文件没有备份,实际上在一段时间没有被访问后被清除(通常是两周)