标签: json amazon-web-services aws-glue
我虽然这很简单。我有一个统一的 JSON 文件,并设置了一个自定义分类器,我已确认为与其关联的爬虫读取该文件的所有数据。
但是,当该爬虫运行时,记录计数就偏离了。当我评估相同 JSON 文件通过 jq(例如 jq length file.json),计数约为 133,000。胶水目录表报告它是 ~34,000。
jq
jq length file.json
我在这里遗漏了什么?