Question

我在Amazon EMR上使用4个r3.4xlarge实例在~300K文档上运行LDA。使用k=800主题，小批量fraction = 0.2和maxIter=20（或10），作业结束，但如果我将maxIter增加到30，则作业失败。我很难理解为什么增加最大迭代会导致作业失败。我尝试使用检查点，但我不确定这有多大帮助（并且Spark代码在这方面并不完全是自我记录的）。有人遇到过类似的问题吗？

Answer 1

清单：

您是否启用了检查点（setCheckpointInterval）？
- 如果是，您是否设置了检查点目录？
  - 如果没有设置检查点目录：
```
sc.setCheckpointDir(...)
```
  - 如果是，请确认实际已写入检查点且设备上有足够的空间。
- 如果没有启用检查点。

由于max迭代参数增加，LDA进程在PySpark中失败

1 个答案: