在大数据中模拟“更新”

时间:2019-04-04 06:53:54

标签: bigdata

我正在尝试填充一个维表,该维表将成为数据仓库的一部分。我的登台表每天的负载已达到某种聚合水平。现在,我需要将数据从登台馈送到维度表。维度表的类型将为'Type-1',因此仅需要更新最新值-无需存储历史记录。

所以让我在这里举一个例子。可以说登台表捕获了客户的每日购买详细信息。因此,我们有一个客户ID和购买日期。基本上对于给定的一天,我们将仅从给定日期实际购买的客户的来源获取记录。目的是从此登台表创建客户维度。因此,这就是登台 stg_customer 表的样子:-

enter image description here

需要注意的重要一点是,由于在加载到登台表之前我已经在源数据之上进行了一些ETL,所以我确保在给定的一天中给定客户只存在一个条目-即使同一位客户在同一天进行了多次购买。

现在,我需要从中创建一个dim_customer表。因此,我打算执行暂存->每天执行昏暗逻辑-对于dim_customer而言,我的目标是存储所有存入暂存表的客户的首次购买日期和最后购买日期。首次购买日期永远不会改变,但是如果同一位客户在另一天回来并购买了某些东西,则他的最后一次购买日期必须在尺寸表中进行更改。

在3天结束后,每天都要运行暗逻辑,这就是 dim_customer 表的外观:-

enter image description here

someinfo1,someinfo2列无论在暗处还是在暂存中实际上都没有作用-假定这些只是一些业务列,并且在聚合期间甚至可以接受这些列的最大暂存量。

问题在于,这是在某些大数据技术中。我无法进行真正的更新。我必须以某种方式模拟它。在不深入研究技术的情况下,我想了解大数据世界中是否存在针对此问题的标准解决方案?

0 个答案:

没有答案