应用错误收集

AWS Glue-是否使用抓取工具

时间：2018-11-22 09:48:33

标签： amazon-web-services apache-spark pyspark aws-glue

对于要在S3存储桶中以拼花格式运行数据的作业，有两种方法：

创建一个搜寻器以创建模式表，使用glueContext.create_dynamic_frame.from_catalog(dbname, tablename)在Glue作业内部形成动态框架。
使用glueContext.create_dynamic_frame.from_options("s3", {"paths": [full_s3_path] }, format="parquet")

由于我的数据方案不会随时间变化，因此使用Crawler是否有任何优势（从性能方面还是其他方面）？在这种情况下，为什么我需要履带？

1 个答案:

答案 0 :(得分：2)

如果您的数据未分区，或者您不想使用predicate-pushdown功能，则无需运行搜寻器。

但是，如果已分区并且希望通过谓词-推入功能部分加载数据，则应在数据目录中注册新分区，而Crawler是最简单的方法之一（有{{3} }）