AWS Glue JSON限制

时间:2018-11-20 12:10:03

标签: amazon-web-services aws-glue

尝试使用AWS Glue自动对S3存储桶中的JSON文件进行爬网和分类,如下所述:

https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html

小于1mb的文件已成功分类,但是大于1mb的文件则未分类,并归类为Unknown

尝试过的方法在这里列出: AWS Glue Crawler Classifies json file as UNKNOWN

但是没关系。

是否想知道是否有人遇到过类似的问题?

1 个答案:

答案 0 :(得分:0)

我有同样的问题。您是否尝试过将数据展平为ORC或类似数据?即使使用自定义分类器,一定大小的嵌套JSON似乎也受到限制。或者,您可以从

更改JSON
[
   { .... },
   { .....},
]

变成

{ ... }
{ ... }

应该在胶水中工作。

这是我运行以进行转换的Python脚本(使用200 mb JSON):

import json
with open('./Data/data.json') as f:
    data = json.load(f)
with open('./Data/data_flat.json', 'w') as file:
    for entry in data['locations']:
        file.write(json.dumps(entry)+'\n')

现在胶正确分类了!