我有兴趣下载AWS Common Crawl的一个很小的子集(十个meg顶部)的原始文本,作为信息检索测试的语料库。
“通用抓取”页面建议我需要一个S3帐户和/或Java程序才能访问它,然后我要筛选的是100 Gb的数据,而我所需要的只是几十兆。
有some code here,但它需要一个S3帐户并具有访问权限(尽管我确实喜欢Python)。
有没有一种方法可以形成一个http(s)URL,该URL可以让我得到一个爬网的微小横截面?我相信我看过一个页面,该页面建议了一种用日,时,分来构造目录的方法,但似乎无法再次找到该页面。
谢谢!
答案 0 :(得分:1)
这很容易:只需从任何每月抓取中随机选择一个WARC(WAT或WET)文件。爬网在这里宣布:https://commoncrawl.org/connect/blog/
您很沮丧,因为每个WARC / WAT / WET文件本身都是随机样本。需要更多数据:只需随机选择更多文件即可。