使用Spark合并非常大的配置单元表(准确地说是11个)

时间:2018-10-07 14:17:26

标签: apache-spark hive pyspark apache-spark-sql pyspark-sql

我基本上是在替换另一个程序员。

问题描述: 有11个配置单元表,每个配置单元具有8至11列。所有这些表都有大约5列,它们的名称相似,但具有不同的值。

例如表A 具有mobile_no,日期,持续时间列,表B 也具有。但是价值观并不相同。其他列的表名称不同。

在所有表中,数据类型为字符串,整数,双精度值,即简单数据类型。字符串数据最多可包含100个字符。

每个表包含大约5000万数据。我需要合并这11个表,并按原样合并它们,并制成一个大表。

我们的Spark集群有20个物理服务器,每个都有36个内核(如果算上虚拟化,则为72个),每个RAM 512 GB。 Spark版本2.2.x

我必须有效地兼顾内存和速度。

你们能帮我解决这个问题吗?

N.B:如果您有任何疑问,请告诉我

0 个答案:

没有答案