大数据集报告方法

时间:2019-07-03 09:59:21

标签: amazon-s3 architecture report tableau matillion

我在AWS s3中拥有2.2亿个原始文件,我正考虑将所有原始文件合并到一个文件中,该文件估计约为10 TB。合并文件将用作事实表,但采用文件格式,以供审计时报告。

原始文件是来自应用程序的源数据。如果应用程序有任何新的数据更改,则文件的包含将更改。

我想问的是,有人遇到这种情况的端到端流程吗?

s3-> ETL(文件合并)-> s3->报告(表格)

1 个答案:

答案 0 :(得分:3)

我还没有亲自尝试过,但这就是Athena的用途……跳过您的ETL流程,直接从文件中查询。您是否有理由将所有内容都转储到单个文件中,而不是将其分散?一遍又一遍地重写10TB文件是非常昂贵且耗时的...我个人至少会调查将文件1-1与源文件保持一致。

  1. 创建一个在s3上重写文件时触发的s3触发器
  2. Create a Lambda that creates your "audit ready" report files on s3
  3. 使用AWS Athena查询这些报告文件
  4. Tableau connector to Athena查看报告