通过http将AWS Common Crawl的小样本下载到本地计算机

时间:2019-04-19 13:02:27

标签: dataset information-retrieval corpus common-crawl

我有兴趣下载AWS Common Crawl的一个很小的子集(十个meg顶部)的原始文本,作为信息检索测试的语料库。

“通用抓取”页面建议我需要一个S3帐户和/或Java程序才能访问它,然后我要筛选的是100 Gb的数据,而我所需要的只是几十兆。

some code here,但它需要一个S3帐户并具有访问权限(尽管我确实喜欢Python)。

有没有一种方法可以形成一个http(s)URL,该URL可以让我得到一个爬网的微小横截面?我相信我看过一个页面,该页面建议了一种用日,时,分来构造目录的方法,但似乎无法再次找到该页面。

谢谢!

1 个答案:

答案 0 :(得分:1)

这很容易:只需从任何每月抓取中随机选择一个WARC(WAT或WET)文件。爬网在这里宣布:https://commoncrawl.org/connect/blog/

  1. 进行最新的抓取(例如April 2019
  2. 导航到WARC文件列表并下载(与WAT或WET相同)
  3. 随机选择一个
  4. 使用https://commoncrawl.s3.amazonaws.com/(在博客文章中有说明)作为路径的前缀并下载

您很沮丧,因为每个WARC / WAT / WET文件本身都是随机样本。需要更多数据:只需随机选择更多文件即可。