我基本上是在替换另一个程序员。
问题描述: 有11个配置单元表,每个配置单元具有8至11列。所有这些表都有大约5列,它们的名称相似,但具有不同的值。
例如表A 具有mobile_no,日期,持续时间列,表B 也具有。但是价值观并不相同。其他列的表名称不同。
在所有表中,数据类型为字符串,整数,双精度值,即简单数据类型。字符串数据最多可包含100个字符。
每个表包含大约5000万数据。我需要合并这11个表,并按原样合并它们,并制成一个大表。
我们的Spark集群有20个物理服务器,每个都有36个内核(如果算上虚拟化,则为72个),每个RAM 512 GB。 Spark版本2.2.x
我必须有效地兼顾内存和速度。
你们能帮我解决这个问题吗?
N.B:如果您有任何疑问,请告诉我