AWS胶水包含哪些数据类别?

时间:2019-07-24 23:39:15

标签: amazon-web-services aws-glue aws-glue-data-catalog

我正在通过document.getElementById将数据爬网到数据目录。但是我对数据库定义有些困惑。根据我在AWS文档aws glue中可以找到的内容。我想知道数据库到底包含什么。是否从其他数据源加载所有数据并在其上创建目录?还是只包含目录?我如何知道胶合数据库中表的大小?以及它使用什么类型的数据库,例如A database in the AWS Glue Data Catalog is a container that holds tables. You use databases to organize your tables into separate categories.nosql

例如,我创建了一个搜寻器以从rds加载数据并在s3中创建目录表。 glue表是否包含来自glue的所有数据?如果我删除s3 bucket存储桶,它会对在与搜寻器创建的目录表相对应的粘胶中的其他作业有影响吗?

如果目录表仅包含数据模式,那么如果修改了数据源,如何保持它对数据的更新?

1 个答案:

答案 0 :(得分:0)

目录只是元数据存储。它的任务是记录保存在其他地方的数据,并将其导出到其他工具,例如Athena或EMR,以便他们可以发现数据。

数据不会复制到目录中,而是保留在原始数据中。如果您从目录中删除该表,原始数据将保持不变。

如果删除原始数据(如您在问题中所述),则其他服务将无法再访问该数据,因为该数据已被删除。如果再次运行搜寻器,它将检测到它不存在。

如果要使搜寻器架构保持最新,则可以计划搜寻器的自动运行,或者在数据更改时按需执行。再次运行搜寻器时,它将相应地更新记录数,分区数,甚至架构中的更改。请参阅the documentation,以了解架构中的更改可能会对您的目录产生影响。