访问公共爬网AWS公共数据集

时间:2013-05-20 12:27:38

标签: amazon-web-services amazon-s3 amazon-ec2 amazon common-crawl

我需要浏览和下载常见抓取的公共数据集的子集。 This页面提到了托管数据的位置。
如何浏览并可能下载在s3:// aws-publicdatasets / common-crawl / crawl-002 /?托管的常见爬网数据?

4 个答案:

答案 0 :(得分:13)

正如更新一样,下载Common Crawl语料库一直是免费的,您可以使用HTTP而不是S3。 S3允许您使用匿名凭据来访问数据。

如果要通过HTTP下载,请获取其中一个文件位置,例如:

共抓取/爬行数据/ CC-MAIN-2014-23 /分段/ 1404776400583.60 / WARC / CC-MAIN-20140707234000-00000-IP-10-180-212-248.ec2.internal.warc.gz

然后向其添加https://commoncrawl.s3.amazonaws.com/,生成链接:

https://commoncrawl.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2014-23/segments/1404776400583.60/warc/CC-MAIN-20140707234000-00000-ip-10-180-212-248.ec2.internal.warc.gz

要获取所有此类文件的列表,请参阅更新的爬网上的warc.paths.gz(或WET或WAT文件的等效文件),或使用s3cmd或类似工具使用匿名凭据列出文件。< / p>

此链接可以使用,无需通过S3即可下载数据。

答案 1 :(得分:4)

对Common Crawl抓取的常规数据访问在以下位置进行了讨论: http://blog.commoncrawl.org/2015/05/april-2015-crawl-archive-available/

我认为获取一些试验数据的有用方法是使用存档上的新索引: http://index.commoncrawl.org/CC-MAIN-2015-18

如果查询“www.cwi.nl”的示例,则会找到有关包含该域文件的段的JSON结构。

{
 "urlkey": "nl,cwi)/", "timestamp": "20150505031358", 
 "status": "200", "url": "http://www.cwi.nl/", 
 "filename": "common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz", 
 "length": "5881", "mime": "text/html", "offset": "364108412", 
 "digest": "DLQQ4NMJMRRZFGXSXGSFPRO3YJBKVHN5"
}

将s3信息添加到其中,您可以下载可用作样本数据的数据文件: https://aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz

玩得开心!

答案 2 :(得分:1)

  

要访问Common Crawl数据,您需要运行map-reduce作业   反对它,并且,由于语料库驻留在S3上,你可以这样做   使用Amazon的EC2服务运行Hadoop集群。这涉及到   设置一个使用我们的自定义InputFormat的自定义hadoop jar   class从我们的S3存储桶中的各个ARC文件中提取数据。

来源:http://commoncrawl.org/the-data/

使用入门:http://commoncrawl.org/the-data/get-started/

答案 3 :(得分:0)

其他答案都有一些很好的参考URL,但是对于访问实际数据,如果只需要其中的一小部分,则此客户端代码非常适合查看索引和下载内容:

https://github.com/cocrawler/cdx_toolkit