AWS Glue爬网程序做什么

时间:2018-12-04 08:32:48

标签: amazon-web-services aws-glue

我已阅读过以下内容的AWS胶水文档:https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html,但我仍不清楚Glue搜寻器的确切用途。抓取工具是否会遍历您的S3存储桶,并创建指向这些存储桶的指针?

当文档说“搜寻器的输出由您的数据目录中定义的一个或多个元数据表组成”时,这些元数据表的目的是什么?

2 个答案:

答案 0 :(得分:1)

CRAWLER创建允许GLUE和诸如ATHENA之类的服务将S3信息作为具有表的数据库查看的元数据。也就是说,它允许您创建胶水目录。

这样,您可以看到s3作为由多个表组成的数据库的信息。

例如,如果要创建搜寻器,则必须指定以下字段:

数据库->数据库名称 服务角色service-role / AWSGlueServiceRole 选定的分类器->指定分类器 包含路径-> S3位置

答案 1 :(得分:1)

需要抓取工具来分析指定s3位置中的数据并生成/更新Glue数据目录,该目录基本上是实际数据的元存储(类似于Hive metastore)。换句话说,它保留了有关数据物理位置,模式,格式和分区的信息,这使得可以通过Athena查询实际数据或将其加载到Glue作业中。

我建议您阅读this文档,以更好地了解Glue爬虫,当然还要做一些实验。