PySpark:处理100000列数据集

时间:2017-12-26 16:37:18

标签: csv apache-spark pyspark kerberos large-files

我正在使用Cloudera Spark 2.我们在群集中实现了Kerberos。

我有一个400000x100000的CSV数据集。它有500GB。 我做了以下事情:

  • df = spark.read.csv('largefile.csv',header=Ture,maxCoulmns=100000)
  • print(df.count())并保存在spark_test.py
  • 在终端spark2-submit --master yarn --deploy-mode cluster spark_test.py

火花作业正在运行,我能够在Spark UI中跟踪它,并且它会继续运行,大约30分钟后它就会失败。

出于测试目的,我已尝试使用10列数据集完成上述步骤,并成功完成了作业。

是否有任何限制或配置来增加Spark进程的列?

1 个答案:

答案 0 :(得分:1)

很可能您的Kerberos票证已过期。

在致电principal时尝试指定keytabspark2-submit

spark2-submit --keytab=/local/path/to/file.keytab --principal=user@domain \
              --master yarn --deploy-mode cluster spark_test.py