使用特定域后缀抓取网站

时间:2017-05-26 20:54:24

标签: http web web-crawler domain-name

我有兴趣找到尽可能多的域名,这些域名具有我感兴趣的给定域名后缀,例如:“。com”,“。net”,“。org”等。

我试图抓住谷歌,但它显然不合法,很难做到。

是否存在包含域名的大型列表?如果没有,我如何使爬虫尽可能找到以给定域名后缀结尾的域名?

1 个答案:

答案 0 :(得分:1)

CommonCrawl最近宣布发布[排名主机列表] [2](共计385M),您可以按域后缀进行过滤。