所以我有一份运行下载一些文件的工作,通常需要大约10分钟。这一个运行了一个多小时才终于失败了以下,只有错误信息:
工作流程失败。原因:(3f03d0279dd2eb98):数据流似乎卡住了。请通过http://stackoverflow.com/questions/tagged/google-cloud-dataflow与Dataflow小组联系。
所以我在这里:-) jobId:2017-08-29_13_30_03-3908175820634599728
出于好奇,我们会因为卡住的时间而被收费吗?那是什么问题?
我正在使用Dataflow-Version 1.9.0
感谢Google数据流团队
答案 0 :(得分:1)
好像这份工作让所有工作人员一直在花费Java垃圾收集(几乎100%,每隔约7秒就会发生7秒左右的Full GC)。
您接下来的最佳步骤是通过登录其中一台计算机并使用jmap来获取作业的堆转储。使用堆转储分析工具检查分配所有内存的位置。最好将正常运行的作业的堆转储与损坏的作业的堆转储进行比较。如果您想获得Google提供的进一步帮助,请随时与Google云支持联系并分享此SO问题和堆转储。如果您怀疑问题出在Google Cloud Dataflow中的某个位置,这将非常有用。