应用错误收集

在Spark-SQL满负载或增量负载中哪个更好

时间：2019-03-09 16:42:18

标签： apache-spark-sql pyspark-sql

嗨，我只需要一个小建议。

在我的项目中，他们正在将所有Teradata查询转换为（Hive DB）Dataframes-pyspark / Spark-SQL。

绝大部分Teradata查询都基于截断和负载。

例如

假设表A中有10000条记录

表A每天从另一个来源（例如表M）获取数据。

每天我们只会收到5到6条新记录。

目前，我们每天都在截断表A中的所有数据，并从表M中进行全负载。

表M包含update_timestamp列，因此很有可能进行增量加载，并且该表仅包含原始事务数据类型。

使用Spark-SQL是写查询的更好方法，我应该像在Teradata中那样进行增量加载或完全加载吗？

1 个答案:

答案 0 :(得分：0)

您必须每天对表进行增量加载，同时要记住update_timestamp列，如果您需要更多详细信息，请告诉我。