标签: amazon-web-services bigdata etl aws-glue
我有一个S3存储桶,该存储桶中放有许多文件(每分钟1000条记录)。我想对这些丢弃的文件批次触发Glue ETL作业。
我研究过使用Firehose汇总事件的批次,但这需要大量的链接资源。就像S3-> Lambda-> Firehose-> ...
批量处理数据的最佳方法是什么?
答案 0 :(得分:0)
您可以使用AWS Glue作业触发器,该触发器可让您按计划的时间间隔运行粘合作业,而不是作为S3事件触发器?
您正在处理流数据吗?信息有限,看不到Firehose的用例/目的。