我在AWS s3中拥有2.2亿个原始文件,我正考虑将所有原始文件合并到一个文件中,该文件估计约为10 TB。合并文件将用作事实表,但采用文件格式,以供审计时报告。
原始文件是来自应用程序的源数据。如果应用程序有任何新的数据更改,则文件的包含将更改。
我想问的是,有人遇到这种情况的端到端流程吗?
s3-> ETL(文件合并)-> s3->报告(表格)
答案 0 :(得分:3)
我还没有亲自尝试过,但这就是Athena的用途……跳过您的ETL流程,直接从文件中查询。您是否有理由将所有内容都转储到单个文件中,而不是将其分散?一遍又一遍地重写10TB文件是非常昂贵且耗时的...我个人至少会调查将文件1-1与源文件保持一致。