我正在尝试在PBS中进行深度学习(由Tensorflow开发),但是1周后我收到了错误消息PBS: job killed: walltime 691231 exceeded limit 691200
。我是PBS工作的新手,因此我想知道为成功完成工作而应更改的关键参数是什么。我大约有80万个数据补丁。我保持批次大小为32,学习速度为3e-2。我系统的当前配置
node - we have 12, ppn - absolute max is 32
.PBS文件ppn-4的当前设置。我想我需要增加ppn数。还有其他要改善性能的关键点吗?
答案 0 :(得分:2)
我们可以使用以下格式设置PBS挂墙时间。在您的情况下,默认情况下为8天(192小时),因此工作在192小时后被杀死。
walltime是hh:mm:ss格式。
#PBS -l walltime = 192:00:00
以下是用于检查配置的最长墙壁时间的命令。基于“ resources_max.walltime”,可以在脚本中设置该值。
$ qmgr -c“列表队列批处理”
队列批处理
resources_max.nodes = 16
**resources_max.walltime = 24:00:00**
----
谢谢, 拉杰斯瓦里·蓬努鲁(Rajeswari Ponnuru)。
答案 1 :(得分:0)
您可以通过在bash脚本中添加它来增加有效期 在qsub模式下运行,如下所示:
# PBS -l walltime=24:00:00