如何在火花中配置sc?

时间:2017-09-12 05:09:21

标签: pyspark

javadsl

我已成功使用sc的这个配置从hive(500行)中读取一个小表。 现在我想更改sc配置以读取超过6亿行的表。如何配置sc参数? 我使用相同的sc来读取巨大的表格?当我算上它时,它陷入了以下阶段:

myConf = SparkConf().setAppName("create_h5_pairwise")\
             .set("spark.hadoop.validateOutputSpecs", False)\
             .set("spark.akka.frameSize", 300)\
             .set("spark.driver.maxResultSize","8G")\
             .set("spark.num.executors", 40)\
             .set("spark.executor.memory", "20G")\
             .set("spark.executor.cores", 3)\
             .set("spark.driver.memory", "4G")
sc = SparkContext(conf=myConf)

根本没有进展。

0 个答案:

没有答案