标签: apache-spark pyspark
我有一个pyspark工作,我提交给一个独立的火花星团 - 这是一个ec2盒子上的自动缩放群集,所以当提交作业并且没有足够的节点可用时,几分钟之后会有几个盒子旋转并成为可用。
我们在spark作业的主要部分有一个@timeout装饰器,当它超过一定的时间阈值(由于某些作业挂起而放置)时会超时和出错。问题是有时候一个工作可能没有真正开始,因为它等待资源但是@timeout函数被评估并且因此导致作业错误。
所以我想知道是否还要在应用程序本身内用代码告诉我,如果作业正在等待资源?