加入一个庞大而巨大的火花数据帧

时间:2016-03-11 19:49:47

标签: apache-spark spark-dataframe

我有两个数据帧,df1有600万行,df2有10亿行。

我尝试过标准df1.join(df2,df1("id")<=>df2("id2")),但内存不足。

df1太大而无法放入广播连接中。

我甚至尝试过布隆过滤器,但它也太大而无法放入广播中并且仍然有用。

我唯一没有尝试过的错误就是将df1分成300,000个行块并在foreach循环中与df2连接。但这比它可能应该的时间长一个数量级(可能因为它太大而不适合作为持久性导致它重新分裂到那一点)。重新组合结果也需要一段时间。

你是如何解决这个问题的?

一些注意事项:

df1是df2的子集。 df1=df2.where("fin<1").selectExpr("id as id2").distinct()我对df2中的所有行感兴趣,这些行的id一次有一个fin&lt; 1,这意味着我不能一步完成。

df2中有大约2亿个唯一ID。

这里有一些相关的火花设置:

spark.cores.max=1000
spark.executor.memory=15G
spark.akka.frameSize=1024
spark.shuffle.consolidateFiles=false
spark.task.cpus=1
spark.driver.cores=1
spark.executor.cores=1
spark.memory.fraction=0.5
spark.memory.storageFraction=0.3
spark.sql.shuffle.partitions=10000
spark.default.parallelism=10000

我得到的错误是:

16/03/11 04:36:07 ERROR LiveListenerBus: SparkListenerBus has already stopped! Dropping event SparkListenerTaskEnd(11,1,ResultTask,FetchFailed(BlockManagerId(68dcb91c-1b45-437d-ac47-8e8c1e4bc386-S199, mapr, 46487),3,176,4750,org.apache.spark.shuffle.FetchFailedException: java.io.FileNotFoundException: /tmp/mesos/work/slaves/68dcb91c-1b45-437d-ac47-8e8c1e4bc386-S199/frameworks/c754216b-bf80-4d84-97f1-2e907030365e-2545/executors/16/runs/5a5a01c5-205e-4380-94d3-7fa0f6421b85/blockmgr-ea345692-05bb-4f42-9ba1-7b93311fb9d4/0e/shuffle_3_340_0.index (No such file or directory)

Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Task 465 in stage 6.3 failed 4 times, most recent failure: Lost task 465.3 in stage 6.3 (TID 114448, mapr): java.lang.OutOfMemoryError: Direct buffer memory

3 个答案:

答案 0 :(得分:5)

我认为你有一个太大的分区问题(可能是由于更大的数据) 您可以尝试一些方法:

  1. 尝试将spark.sql.shuffle.partitions定义为2048甚至更多(默认值为200)。加入你的df-s时会有洗牌。尝试使用此参数,以便更大数据/此参数的总体积约为64Mb-100Mb(取决于文件格式)。一般来说,你应该在spark UI中看到每个任务(每个分区)进程&#34;正常&#34;数据量(最大64MB-100MB)

  2. 如果第一个不起作用我可以建议加入RDD api。将您的df转换为RDD。然后通过HashPartitioner(分区数)对两个RDD进行分区。如我之前所描述的那样,应该计算分区数。

  3. 最近火花开发者添加了新的选项:你可以将巨大的表存入N个存储桶(即存储它为连接做好准备)。存在的限制很少,但它可以完全消除混乱的巨大数据。 bucketBy仅受saveAsTable api支持而不保存。在您获取数据并将其删除之后,在下一次迭代中,您可以将此数据作为外部表加载,同时提供存储规范(请参阅https://docs.databricks.com/spark/latest/spark-sql/language-manual/create-table.html

    CREATE TABLE ginormous         --...在这里你必须指定架构         使用PARQUET         通过(a,b,c)INTO N桶进行聚类         LOCATION&#39; hdfs:// your-path&#39;

  4. 然后,当您将巨额表加载为分段表时,可以加载大表并将其重新分配到相同数量的桶和相同列(df.repartition(N,a,b,c))

答案 1 :(得分:1)

你可以尝试设置,spark.shuffle.memoryFraction = 0.0吗?

这会导致shuffle将所有内容泄漏到磁盘上,并且永远不会出现OOM错误

答案 2 :(得分:0)

如果满足您的要求,您还可以使用两次通过方法。首先,将数据重新分区并使用分区表(dataframe.write.partitionBy())持久化。然后,将子分区依次循环连接,“追加”到同一最终结果表。

Efficient pyspark join

请让我知道这种方法是否对您有用。也请让我知道您是否有更好的选择来合并两个大型数据框并希望共享。 :-)