dataset - 通过http将AWS Common Crawl的小样本下载到本地计算机

时间：2019-04-19 13:02:27

标签： dataset information-retrieval corpus common-crawl

我有兴趣下载AWS Common Crawl的一个很小的子集（十个meg顶部）的原始文本，作为信息检索测试的语料库。

“通用抓取”页面建议我需要一个S3帐户和/或Java程序才能访问它，然后我要筛选的是100 Gb的数据，而我所需要的只是几十兆。

有some code here，但它需要一个S3帐户并具有访问权限（尽管我确实喜欢Python）。

有没有一种方法可以形成一个http（s）URL，该URL可以让我得到一个爬网的微小横截面？我相信我看过一个页面，该页面建议了一种用日，时，分来构造目录的方法，但似乎无法再次找到该页面。

谢谢！

答案 0 :(得分：1)

这很容易：只需从任何每月抓取中随机选择一个WARC（WAT或WET）文件。爬网在这里宣布：https://commoncrawl.org/connect/blog/

您很沮丧，因为每个WARC / WAT / WET文件本身都是随机样本。需要更多数据：只需随机选择更多文件即可。