使用ETL进行聚合

时间:2017-05-19 16:09:23

标签: python amazon-web-services etl aws-glue

我还没有找到任何直接的答案,所以我想我会在这里问。

ETL(例如AWS Glue)是否可用于执行聚合以在任意时间范围内将数据分辨率降低到AVG,MIN,MAX等?

e.g。 - 鉴于过去一个月内外部温度的2000多个数据点,使用ETL工作将该分辨率降低到过去一个月内每日平均值的30个数据点。 (抛开这些数据的实际用例,只是一个例子)。

我们的想法是执行聚合以降低数据的分辨率,使图表,图形等更快地显示大数据集的长时间范围,因为我们不需要动态的每个单独的数据点这些图表和图表即时汇总。

到目前为止,我的研究只表明ETL用于1到1次数据转换,而不是1000比1.似乎ETL更多地用于将数据转换为适当的结构以存储在数据库中,而不是用于聚合大型数据数据集。

我可以使用ETL来解决我的聚合需求吗?这将是一个非常大的规模,使用AWS和Python实现。

1 个答案:

答案 0 :(得分:0)

' T'在ETL中代表转换'并且聚合是最常见的聚合之一。简而言之:是的,ETL可以为您做到这一点。其余取决于具体需求。你需要任何下钻吗?提高缩放分辨率可能吗?这会影响整个设计,但一般来说,为表示层准备数据正是ETL的用途。