胶水爬虫行数不正确

时间:2021-04-15 20:54:50

标签: json amazon-web-services aws-glue

我虽然这很简单。我有一个统一的 JSON 文件,并设置了一个自定义分类器,我已确认为与其关联的爬虫读取该文件的所有数据。

但是,当该爬虫运行时,记录计数就偏离了。当我评估相同 JSON 文件通过 jq(例如 jq length file.json),计数约为 133,000。胶水目录表报告它是 ~34,000。

我在这里遗漏了什么?

0 个答案:

没有答案