下载通用爬网完整索引文件

时间:2015-06-29 12:23:24

标签: python boto common-crawl

以下项目中使用的常见爬网索引文件

https://github.com/trivio/common_crawl_index/blob/master/bin/remote_copy

mmap = BotoMap(s3_anon, src_bucket, '/common-crawl/projects/url-index/url-index.1356128792'

partial one.

我希望在我的项目中使用完整的索引文件(APRIL-2015抓取数据),该项目使用上述项目作为基础。

我在哪里可以下载整个索引文件?

Here 汤姆莫里斯说明了

  

索引服务使用的索引文件也可用   下载。

1 个答案:

答案 0 :(得分:2)

通用抓取索引文件可在@echo off title Store Data Counter :recurse set I=1 echo "files counter" FOR /f "tokens=*" %%A IN ('dir /a-d /b "Z:\StoreData\A11106*.zip"') do (call :showfiles "%%A") echo A111: %I% FOR /f "tokens=1" %%A IN ('dir /a-d /b "Z:\StoreData\A11206*.zip"') do (call :showfiles "%%A") echo A112: %I% pause goto :eof :showfiles echo %1 set /a I+=1 goto :eof

公开获取

您可以查看 aws命令行提供的所有抓取索引:s3://commoncrawl/cc-index/collections/

2015年4月的索引文件位于aws s3 ls s3://commoncrawl/cc-index/collections/

如果要通过http协议下载索引s3://commoncrawl/cc-index/collections/CC-MAIN-2015-18/indexes/文件,可以执行以下操作:

  

https://commoncrawl.s3.amazonaws.com/cc-index/collections/CC-MAIN-2015-18/indexes/cdx-00000.gz

cdx文件大部分来自 cdx-00000.gz cdx-00299.gz ,因此完整索引包含在300个文件中。