我试图获取Common Crawl新闻S3存储桶,但我不断收到“严重错误:无法找到凭据”消息。关于如何解决这个问题的任何建议?据我所知,Common Crawl甚至不需要凭据?
答案 0 :(得分:1)
来自News Dataset Available – Common Crawl:
通过添加命令行选项
--no-sign-request
,即使没有AWS账户也可以访问数据。
我通过启动一个新的Amazon EC2实例(没有IAM角色)并发出以下命令对此进行了测试:
aws s3 ls s3://commoncrawl/crawl-data/CC-NEWS/
它给了我错误:Unable to locate credentials
然后我使用附加参数运行它:
aws s3 ls s3://commoncrawl/crawl-data/CC-NEWS/ --no-sign-request
它成功列出了目录。