s3 select和athena有什么区别

时间:2018-03-05 02:16:21

标签: amazon-web-services amazon-s3 amazon-athena amazon-s3-select

我试图了解aws athena服务和新发布的s3 select之间的区别(仍在预览中)。那两个用户的用途有何不同?它似乎都有助于从s3中选择部分数据。

7 个答案:

答案 0 :(得分:9)

看起来我们还缺少一件事:

S3 Select仅在一个对象上运行,而Athena则在多个路径上运行查询,这将包括该路径内的所有文件。

答案 1 :(得分:4)

您可以将AWS S3 Select视为一种经济高效的存储优化,允许检索与S3中的谓词匹配的数据和冰川也称为下推过滤。

AWS Athena是完全托管的分析服务,允许运行任意符合ANSI SQL的查询 - 分组,拥有,窗口和地理功能,SQL DDL和DML。

答案 2 :(得分:2)

雅典娜(从我使用它的小部分)更倾向于作为S3支持的商业报告或分析工具。

S3 select似乎使用相同类型的技术,但我猜它更多的是针对应用程序直接使用来过滤或分片他们的数据集。

答案 3 :(得分:2)

根据我的理解概述:

  

Amazon Athena是一种交互式查询服务,可以轻松实现   使用标准SQL分析Amazon S3中的数据。雅典娜没有服务器,所以   没有要管理的基础架构,您只需为查询付费   你跑了。

截至目前的主要优势是:

Athena与AWS Glue Data Catalog集成开箱即用,您还可以使用Glue的完全管理的ETL功能来转换数据或将其转换为柱状格式,以优化成本并提高性能。

现在S3 Select Goes:

  • 目前,使用S3 Select是免费的 预览,没有定价的定义。但是,你会的 需要在the reference

  • 申请
  • 在预览中,S3 Select支持包含或不包含GZIP压缩的CSV,JSON和Parquet文件。在预览期间,不支持静态加密的对象。

  • 由于S3 Select仍处于预览阶段,因此AWS不具备内部功能 用于验证服务使用方式的案例。但是,我能找到 您可能会感兴趣的a blog引用。

在我看来,您可以查看可以帮助您的this Twitch Video

答案 4 :(得分:1)

S3 Select可以使用简单的SQL表达式轻松地从对象的内容中检索特定数据。无需检索整个对象。这可以与Lambda一起用于构建无服务器应用程序,并且可以与Apache Spark和Presto等大数据框架捆绑在一起。可以将性能提高到400%。

Amazon Athena是一种交互式查询服务。它没有服务器。无需将数据加载到Athena。基于Presto构建并运行标准SQL。主要用于分析大数据。

答案 5 :(得分:1)

除了@ abc123的答案之外,S3 Select仅支持SELECT

https://docs.aws.amazon.com/AmazonS3/latest/dev/s3-glacier-select-sql-reference-select.html

Amazon S3 Select和S3 Glacier Select仅支持SELECT SQL 命令。 SELECT支持以下ANSI标准子句:

答案 6 :(得分:1)

亚马逊雅典娜: Amazon Athena 是一项查询服务,可以使用标准 SQL 轻松分析存储在 S3 中的数据。 Athena 是无服务器的,因此无需设置或管理基础设施,只需为查询付费。它可以自动扩展 - 并行执行查询,这使得它可以更快地产生结果,即使是大型数据集和复杂查询。

用例: Athena 可用于处理日志、执行即席分析以及运行交互式查询和联接。 它跨多个路径运行查询,其中包括该路径下的所有文件。

S3 选择: S3 Select 是 S3 设计的一项功能,它通过检索对象数据的子集(使用简单的 SQL 表达式)而不是整个对象来工作,整个对象的大小可达 5 TB。 s3 select 一次对 s3 存储桶中的单个对象运行查询。

结论: Athena 可用于对 S3 存储桶下的多个垃圾文件夹的文件进行复杂查询 S3 select 可用于基于单个对象的简单查询。