尝试使用AWS Glue自动对S3存储桶中的JSON文件进行爬网和分类,如下所述:
https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html
小于1mb的文件已成功分类,但是大于1mb的文件则未分类,并归类为Unknown
。
尝试过的方法在这里列出: AWS Glue Crawler Classifies json file as UNKNOWN
但是没关系。
是否想知道是否有人遇到过类似的问题?
答案 0 :(得分:0)
我有同样的问题。您是否尝试过将数据展平为ORC或类似数据?即使使用自定义分类器,一定大小的嵌套JSON似乎也受到限制。或者,您可以从
更改JSON[
{ .... },
{ .....},
]
变成
{ ... }
{ ... }
应该在胶水中工作。
这是我运行以进行转换的Python脚本(使用200 mb JSON):
import json
with open('./Data/data.json') as f:
data = json.load(f)
with open('./Data/data_flat.json', 'w') as file:
for entry in data['locations']:
file.write(json.dumps(entry)+'\n')
现在胶正确分类了!