目前正在构建一个ETL管道,它将数据表(约100 + GB的顺序)输出到下游交互式仪表板,允许动态过滤数据(基于预定义和索引过滤器)。
暂时使用 PySpark / Spark进行初始ETL阶段。 接下来,此处理后的数据将汇总(简单计数,平均值等)& 然后在交互式信息中心中可视化。
对于交互式查询部分,我想知道哪种工具可能最适合我的结构化和&交易数据(以Parquet格式存储) -
如果您知道更好的选择,请随意提出替代工具。
答案 0 :(得分:2)
Athena不限于.csv。实际上,使用像实木复合地板这样的二进制压缩格式是与Athena一起使用的最佳实践,因为它可以大大减少查询时间和成本。我已使用AWS firehose,lambda函数和粘合爬虫将文本数据转换为压缩的二进制格式,以便通过Athena查询。当我在处理大数据量时遇到问题时,问题是忘记提高为帐户设置的默认Athena限制。我有一个朋友,他处理大量的公用事业数据以进行预测分析,他的确遇到了Athena的扩展问题,但这只是在初期。
我还使用带有Kibana的ElasticSearch作为文本搜索引擎,我们使用基于ElasticSearch和Kibana的AWS Log Analytics“解决方案”。我都喜欢雅典娜最适合处理大量日志数据,因为以压缩二进制格式处理它更经济。兆字节的JSON文本数据以实木复合地板格式减少到大约30 gig或更少。我们的开发人员在使用ElasticSearch / Kibana分析其日志文件中的问题时会提高生产力,因为ElasticSeach和Kibana是如此易于使用。用于控制日志记录保留时间的策展人Lambda函数也是AWS Centralized日志记录的一部分,也非常方便。
答案 1 :(得分:1)
根据您提供的信息,我将做出几个假设:
完成列出的选项
我也会研究Amazon Redshift。
如需进一步阅读,请阅读Big Data Analytics Options on AWS。
正如@Damien_The_Unbeliever推荐的那样,您自己的原型设计和基准测试将无法替代。