对于要在S3存储桶中以拼花格式运行数据的作业,有两种方法:
创建一个搜寻器以创建模式表,使用glueContext.create_dynamic_frame.from_catalog(dbname, tablename)
在Glue作业内部形成动态框架。
使用glueContext.create_dynamic_frame.from_options("s3", {"paths": [full_s3_path] }, format="parquet")
由于我的数据方案不会随时间变化,因此使用Crawler是否有任何优势(从性能方面还是其他方面)?在这种情况下,为什么我需要履带?
答案 0 :(得分:2)
如果您的数据未分区,或者您不想使用predicate-pushdown功能,则无需运行搜寻器。
但是,如果已分区并且希望通过谓词-推入功能部分加载数据,则应在数据目录中注册新分区,而Crawler是最简单的方法之一(有{{3} })