Question

尝试使用AWS Glue自动对S3存储桶中的JSON文件进行爬网和分类，如下所述：

https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html

小于1mb的文件已成功分类，但是大于1mb的文件则未分类，并归类为Unknown。

尝试过的方法在这里列出： AWS Glue Crawler Classifies json file as UNKNOWN

但是没关系。

是否想知道是否有人遇到过类似的问题？

Answer 1

我有同样的问题。您是否尝试过将数据展平为ORC或类似数据？即使使用自定义分类器，一定大小的嵌套JSON似乎也受到限制。或者，您可以从

更改JSON

[
   { .... },
   { .....},
]

变成

{ ... }
{ ... }

应该在胶水中工作。

这是我运行以进行转换的Python脚本（使用200 mb JSON）：

import json
with open('./Data/data.json') as f:
    data = json.load(f)
with open('./Data/data_flat.json', 'w') as file:
    for entry in data['locations']:
        file.write(json.dumps(entry)+'\n')

现在胶正确分类了！

AWS Glue JSON限制

1 个答案: