Question

我正在使用Cloudera Spark 2.我们在群集中实现了Kerberos。

我有一个400000x100000的CSV数据集。它有500GB。我做了以下事情：

火花作业正在运行，我能够在Spark UI中跟踪它，并且它会继续运行，大约30分钟后它就会失败。

出于测试目的，我已尝试使用10列数据集完成上述步骤，并成功完成了作业。

是否有任何限制或配置来增加Spark进程的列？

Answer 1

很可能您的Kerberos票证已过期。

在致电principal时尝试指定keytab和spark2-submit：

spark2-submit --keytab=/local/path/to/file.keytab --principal=user@domain \
              --master yarn --deploy-mode cluster spark_test.py