我在Amazon EMR上使用4个r3.4xlarge
实例在~300K文档上运行LDA。使用k=800
主题,小批量fraction = 0.2
和maxIter=20
(或10),作业结束,但如果我将maxIter增加到30,则作业失败。我很难理解为什么增加最大迭代会导致作业失败。我尝试使用检查点,但我不确定这有多大帮助(并且Spark代码在这方面并不完全是自我记录的)。有人遇到过类似的问题吗?
答案 0 :(得分:0)
清单:
您是否启用了检查点(setCheckpointInterval
)?
如果是,您是否设置了检查点目录?
如果没有设置检查点目录:
sc.setCheckpointDir(...)
如果是,请确认实际已写入检查点且设备上有足够的空间。
如果没有启用检查点。