AWS Glue-是否使用抓取工具

时间:2018-11-22 09:48:33

标签: amazon-web-services apache-spark pyspark aws-glue

对于要在S3存储桶中以拼花格式运行数据的作业,有两种方法:

  1. 创建一个搜寻器以创建模式表,使用glueContext.create_dynamic_frame.from_catalog(dbname, tablename)在Glue作业内部形成动态框架。

  2. 使用glueContext.create_dynamic_frame.from_options("s3", {"paths": [full_s3_path] }, format="parquet")

  3. 从S3直接读取

由于我的数据方案不会随时间变化,因此使用Crawler是否有任何优势(从性能方面还是其他方面)?在这种情况下,为什么我需要履带?

1 个答案:

答案 0 :(得分:2)

如果您的数据未分区,或者您不想使用predicate-pushdown功能,则无需运行搜寻器。

但是,如果已分区并且希望通过谓词-推入功能部分加载数据,则应在数据目录中注册新分区,而Crawler是最简单的方法之一(有{{3} })