amazon-web-services - 常见爬网错误＆＃34;指定的密钥不存在＆＃34;

我试图通过https从aws常见抓取中下载warc文件，这是有效的，但出于某种原因，当我最近尝试时，我不断收到the specified key does not exist错误。

当我测试特定网址的索引时，我确实得到了响应，但是当我尝试为每条记录下载warc时，我得到了错误。

这里是要测试的索引url http://index.commoncrawl.org/CC-MAIN-2015-11-index?url=fivethirtyeight.com&matchType=domain&output=json，它显示了许多格式如下的记录： {"urlkey": "com,fivethirtyeight)/", "timestamp": "20150228172316", "url": "http://fivethirtyeight.com/", "length": "17426", "filename": "crawl-data/CC-MAIN-2015-11/segments/1424936462009.45/warc/CC-MAIN-20150226074102-00094-ip-10-28-5-156.ec2.internal.warc.gz", "digest": "FXI6SYLZSAFRSUOIKOZ6XVMQW2NHHLZK", "offset": "96230370"}

这是我试图用来下载warc进行记录的网址：https://aws-publicdatasets.s3.amazonaws.com/crawl-data/CC-MAIN-2015-11/segments/1424936462009.45/warc/CC-MAIN-20150226074102-00094-ip-10-28-5-156.ec2.internal.warc.gz

我错过了一些非常明显的东西吗？

常见爬网错误＆＃34;指定的密钥不存在＆＃34;

1 个答案: