在Spark-SQL满负载或增量负载中哪个更好

时间:2019-03-09 16:42:18

标签: apache-spark-sql pyspark-sql

嗨,我只需要一个小建议。

在我的项目中,他们正在将所有Teradata查询转换为(Hive DB)Dataframes-pyspark / Spark-SQL。

绝大部分Teradata查询都基于截断和负载。

例如

假设表A中有10000条记录

表A每天从另一个来源(例如表M)获取数据。

每天我们只会收到5到6条新记录。

目前,我们每天都在截断表A中的所有数据,并从表M中进行全负载。

表M包含update_timestamp列,因此很有可能进行增量加载,并且该表仅包含原始事务数据类型。

使用Spark-SQL是写查询的更好方法,我应该像在Teradata中那样进行增量加载或完全加载吗?

1 个答案:

答案 0 :(得分:0)

您必须每天对表进行增量加载,同时要记住update_timestamp列,如果您需要更多详细信息,请告诉我。