将AWS Glue中的表分区到具有Glue的多个表

时间:2019-01-08 16:12:46

标签: amazon-web-services aws-glue

我在遵循以下模式的S3存储桶中有JSON文件:

{
    "object1" : {...},
    "arrayObjects1" : [
        {...},{...},...
    ],
    "object2" : {...},
    "arrayObjects2" : [
        {...}, {...}, ...
    ],
    "object3" " {...}, 
    "arrayObjects3" : [
        {...}, {...}, ...
    ]
}

我想为每个第一级索引创建一个单独的表。在这种情况下,这将意味着6个表,其中一个表用于object1,object2等。考虑到每个表都需要一个单独的表,这些表可能会变得很长。

到目前为止,我已经尝试添加一些自定义分类器以尝试实现所需的功能。他们看起来像这样:

尝试1:

$.object1
$.arrayObjects1

尝试2:

$.object1
$.arrayObjects1[*]

在使用这些分类器的情况下,运行没有自定义分类器的搜寻器时,我得到的表的模式与我的表完全相同。进一步阅读后,我相信这些分类器将限制实际将哪些数据放入我的表中,而不是为每个索引创建一个单独的表。

也许我要完全解决这个问题,但是我希望能够使用爬虫和分类器从Glue创建表,而不是通过Athena创建表,以希望随着数据集规模的扩大而节省成本。如果有人提出建议,那就太好了。

更新:我一直在研究AWS Glue Jobs,这似乎是可行的方法。如果有人在这里有经验,那将非常有帮助。谢谢

0 个答案:

没有答案