Spark中的join + groupBy和unionAll + groupBy之间的比较

时间:2017-07-01 07:57:49

标签: apache-spark pyspark apache-spark-sql

我不知道此问题是否曾被提出过。但我遇到的问题是加入后跟avr-gcc.exe -x c -funsigned-char -funsigned-bitfields -DDEBUG -I%inc_folder% -O1 -ffunction-sections -fdata-sections -fpack-struct -fshort-enums -g2 -Wall -mmcu=atmega328p -B %atmega328p_folder% -c -std=gnu99 -MD -MP %sources, object files, etc% 数据导致内存超出Spark并导致进程失败。

我设计了策略,并将两个groupByDataFrame + joingroupBy + unionAll进行了比较(显然代码更大,因为两个相同的模式和对齐那些能够正确结合它们的方法)观察到相同的结果。

我的问题我没有足够的经验使用这些东西并且不知道这两个内存和堆空间消耗的确切比较? 任何人都可以帮我吗?

  1. 堆空间消耗比较
  2. 内存消耗
  3. 任何其他比较,如果你想要陈述和感觉是重要的,以提高效率

0 个答案:

没有答案