标签: http web web-crawler domain-name
我有兴趣找到尽可能多的域名,这些域名具有我感兴趣的给定域名后缀,例如:“。com”,“。net”,“。org”等。
我试图抓住谷歌,但它显然不合法,很难做到。
是否存在包含域名的大型列表?如果没有,我如何使爬虫尽可能找到以给定域名后缀结尾的域名?
答案 0 :(得分:1)
CommonCrawl最近宣布发布[排名主机列表] [2](共计385M),您可以按域后缀进行过滤。