AWS Glue Crawler对于具有相同文件的不同账户产生不同的结果

时间:2019-03-25 15:03:58

标签: amazon-web-services aws-glue

我们有很多要抓取的JSON。为了简便起见,设置了一个虚拟环境用于测试所有访问权限。在此帐户中设置了搜寻器的配置,以搜寻一组JSON并产生正确的结果。 S3中相同目录中具有相同架构的两个JSON放入一个表中。

当我们在生产帐户中尝试执行此操作时,就会出现问题。搜寻器具有相同的配置,生产帐户搜寻器在S3和Glue中具有所有必需的权限。文件夹在S3中的设置方法相同,同一目录中只有两个JSON。无论出于何种原因,生产帐户中的搜寻器都会提供2个表而不是1个,但是两个表都具有相同的架构。

我们试图弄乱虚拟帐户爬网程序以破坏它,以便获得与生产帐户相同的结果,只是为了隔离问题,但无济于事。

我希望所有生产搜寻器的行为与虚拟帐户相同。关于可能造成的原因,我唯一的想法可能是缺少S3中的一部分权限,但是它正确地读取了文件并获得了相同的模式,因此我对此感到怀疑。感谢您的帮助

0 个答案:

没有答案