我有一个火花批处理作业,每小时执行一次。每次运行都会在S3
中使用目录命名模式DATA/YEAR=?/MONTH=?/DATE=?/datafile
生成并存储新数据。
将数据上传到S3
后,我想使用Athena
对其进行调查。更多,我想通过连接到Athena作为数据源在QuickSight
中将它们可视化。
问题在于,每次运行我的Spark批处理后,Athena都不会发现存储在S3
中的新生成的数据,除非我手动运行查询MSCK REPARI TABLE
。
有没有办法让Athena自动更新数据,以便创建全自动数据可视化管道?
答案 0 :(得分:12)
有多种方法可以安排此任务。您如何安排工作流程?您使用Airflow,Luigi,Azkaban,cron或使用AWS Data pipeline等系统吗?
从这些中,您应该可以启动以下CLI命令。
$ aws athena start-query-execution --query-string "MSCK REPAIR TABLE some_database.some_table" --result-configuration "OutputLocation=s3://SOMEPLACE"
另一种选择是AWS Lambda。你可以有一个函数调用MSCK REPAIR TABLE some_database.some_table
来响应新的上传到S3。
示例Lambda函数可以这样写:
import boto3
def lambda_handler(event, context):
bucket_name = 'some_bucket'
client = boto3.client('athena')
config = {
'OutputLocation': 's3://' + bucket_name + '/',
'EncryptionConfiguration': {'EncryptionOption': 'SSE_S3'}
}
# Query Execution Parameters
sql = 'MSCK REPAIR TABLE some_database.some_table'
context = {'Database': 'some_database'}
client.start_query_execution(QueryString = sql,
QueryExecutionContext = context,
ResultConfiguration = config)
然后,当您在存储桶中的DATA/
前缀下添加新数据时,您将配置触发器以执行Lambda函数。
最终,在使用作业调度程序运行Spark作业后显式重建分区具有自我记录的优势。另一方面,AWS Lambda可以方便地完成此类工作。
答案 1 :(得分:2)
有多种方法可以解决问题并更新表格:
呼叫 MSCK REPAIR TABLE
。这将扫描所有数据。这是昂贵的,因为每个文件都被完整读取(至少由 AWS 完全收费)。而且它的速度很慢。简而言之:不要这样做!
通过调用 ALTER TABLE ADD PARTITION abc ...
自行创建分区。这在某种意义上是好的,没有数据被扫描并且成本很低。查询也很快,所以这里没有问题。如果您的文件结构非常混乱而没有任何通用模式(在您看来并非如此,因为它是一个组织良好的 S3 密钥模式),这也是一个不错的选择。 这种方法也有缺点: A) 难以维护 B) 所有分区都将存储在 GLUE 目录中。当您有很多分区时,这可能会成为一个问题,因为它们需要被读出并传递到 Athenas 和 EMR Hadoop 基础设施。
使用分区投影。您可能想要评估两种不同的风格。这是在查询时为 Hadoop 创建分区的变体。这意味着没有 GLUE 目录条目通过网络发送,因此可以更快地处理大量分区。缺点是您可能会“命中”一些可能不存在的分区。这些当然会被忽略,但在内部,COULD 将生成与您的查询匹配的所有分区 - 无论它们是否在 S3 上(因此始终向您的查询添加分区过滤器!)。如果操作正确,此选项是一种即发即忘方法,因为不需要更新。
CREATE EXTERNAL TABLE `mydb`.`mytable`
(
...
)
PARTITIONED BY (
`YEAR` int,
`MONTH` int,
`DATE` int)
...
LOCATION
's3://DATA/'
TBLPROPERTIES(
"projection.enabled" = "true",
"projection.account.type" = "integer",
"projection.account.range" = "1,50",
"projection.YEAR.type" = "integer",
"projection.YEAR.range" = "2020,2025",
"projection.MONTH.type" = "integer",
"projection.MONTH.range" = "1,12",
"projection.DATE.type" = "integer",
"projection.DATE.range" = "1,31",
"storage.location.template" = "s3://DATA/YEAR=${YEAR}/MONTH=${MONTH}/DATE=${DATE}/"
);
https://docs.aws.amazon.com/athena/latest/ug/partition-projection.html
仅列出所有选项:您也可以使用 GLUE crawlers
。但这似乎不是一种有利的方法,因为它不像宣传的那样灵活。
直接使用 Glue Data Catalog API
可以更好地控制 GLUE,如果您有很多自动化脚本,这可能是方法 #2 的替代方法
做准备工作来设置你的桌子。
简而言之:
答案 2 :(得分:1)
您应该改为运行ADD PARTITION
:
aws athena start-query-execution --query-string "ALTER TABLE ADD PARTITION..."
从您的S3
位置添加一个新创建的分区
雅典娜利用Hive对数据进行分区。
要创建带有分区的表,必须在CREATE TABLE
语句中对其进行定义。使用PARTITIONED BY
定义用于对数据进行分区的键。