Question

我在遵循以下模式的S3存储桶中有JSON文件：

{
    "object1" : {...},
    "arrayObjects1" : [
        {...},{...},...
    ],
    "object2" : {...},
    "arrayObjects2" : [
        {...}, {...}, ...
    ],
    "object3" " {...}, 
    "arrayObjects3" : [
        {...}, {...}, ...
    ]
}

我想为每个第一级索引创建一个单独的表。在这种情况下，这将意味着6个表，其中一个表用于object1，object2等。考虑到每个表都需要一个单独的表，这些表可能会变得很长。

到目前为止，我已经尝试添加一些自定义分类器以尝试实现所需的功能。他们看起来像这样：

尝试1：

$.object1
$.arrayObjects1

等

尝试2：

$.object1
$.arrayObjects1[*]

等

在使用这些分类器的情况下，运行没有自定义分类器的搜寻器时，我得到的表的模式与我的表完全相同。进一步阅读后，我相信这些分类器将限制实际将哪些数据放入我的表中，而不是为每个索引创建一个单独的表。

也许我要完全解决这个问题，但是我希望能够使用爬虫和分类器从Glue创建表，而不是通过Athena创建表，以希望随着数据集规模的扩大而节省成本。如果有人提出建议，那就太好了。

更新：我一直在研究AWS Glue Jobs，这似乎是可行的方法。如果有人在这里有经验，那将非常有帮助。谢谢

将AWS Glue中的表分区到具有Glue的多个表

0 个答案: