应用错误收集

我基本上是在替换另一个程序员。

问题描述：有11个配置单元表，每个配置单元具有8至11列。所有这些表都有大约5列，它们的名称相似，但具有不同的值。

例如表A 具有mobile_no，日期，持续时间列，表B 也具有。但是价值观并不相同。其他列的表名称不同。

在所有表中，数据类型为字符串，整数，双精度值，即简单数据类型。字符串数据最多可包含100个字符。

每个表包含大约5000万数据。我需要合并这11个表，并按原样合并它们，并制成一个大表。

我们的Spark集群有20个物理服务器，每个都有36个内核（如果算上虚拟化，则为72个），每个RAM 512 GB。 Spark版本2.2.x

我必须有效地兼顾内存和速度。

你们能帮我解决这个问题吗？

N.B：如果您有任何疑问，请告诉我