我在遵循以下模式的S3存储桶中有JSON文件:
{
"object1" : {...},
"arrayObjects1" : [
{...},{...},...
],
"object2" : {...},
"arrayObjects2" : [
{...}, {...}, ...
],
"object3" " {...},
"arrayObjects3" : [
{...}, {...}, ...
]
}
我想为每个第一级索引创建一个单独的表。在这种情况下,这将意味着6个表,其中一个表用于object1,object2等。考虑到每个表都需要一个单独的表,这些表可能会变得很长。
到目前为止,我已经尝试添加一些自定义分类器以尝试实现所需的功能。他们看起来像这样:
尝试1:
$.object1
$.arrayObjects1
等
尝试2:
$.object1
$.arrayObjects1[*]
等
在使用这些分类器的情况下,运行没有自定义分类器的搜寻器时,我得到的表的模式与我的表完全相同。进一步阅读后,我相信这些分类器将限制实际将哪些数据放入我的表中,而不是为每个索引创建一个单独的表。
也许我要完全解决这个问题,但是我希望能够使用爬虫和分类器从Glue创建表,而不是通过Athena创建表,以希望随着数据集规模的扩大而节省成本。如果有人提出建议,那就太好了。
更新:我一直在研究AWS Glue Jobs,这似乎是可行的方法。如果有人在这里有经验,那将非常有帮助。谢谢