在PBS中运行张量流作业之前,我需要检查哪些关键功能?

时间:2018-12-17 01:46:09

标签: python tensorflow pbs

我正在尝试在PBS中进行深度学习(由Tensorflow开发),但是1周后我收到了错误消息PBS: job killed: walltime 691231 exceeded limit 691200。我是PBS工作的新手,因此我想知道为成功完成工作而应更改的关键参数是什么。我大约有80万个数据补丁。我保持批次大小为32,学习速度为3e-2。我系统的当前配置

node - we have 12, ppn - absolute max is 32

.PBS文件ppn-4的当前设置。我想我需要增加ppn数。还有其他要改善性能的关键点吗?

2 个答案:

答案 0 :(得分:2)

我们可以使用以下格式设置PBS挂墙时间。在您的情况下,默认情况下为8天(192小时),因此工作在192小时后被杀死。

walltime是hh:mm:ss格式。

#PBS -l walltime = 192:00:00

以下是用于检查配置的最长墙壁时间的命令。基于“ resources_max.walltime”,可以在脚本中设置该值。

$ qmgr -c“列表队列批处理”

队列批处理

    resources_max.nodes = 16

   **resources_max.walltime = 24:00:00**
    ----

谢谢, 拉杰斯瓦里·蓬努鲁(Rajeswari Ponnuru)。

答案 1 :(得分:0)

  

您可以通过在bash脚本中添加它来增加有效期   在qsub模式下运行,如下所示:

# PBS -l walltime=24:00:00