我想要按照不同的公共网页数量排序的前100,000个域名列表。
列表看起来像这样
Domain Name 100,000,000 pages
Domain Name 99,000,000 pages
Domain Name 98,000,000 pages
...
我不想知道哪些域名最受欢迎。我想知道哪些域具有最多的不同的,可公开访问的网页。
我无法在Google上找到这样的列表。我假设Quantcast,Google或Alexa都知道,但他们是否发布了这样的列表?
答案 0 :(得分:2)
对于给定的域名,例如yahoo.com你可以谷歌搜索site:yahoo.com
;在结果的顶部,它说"大约141,000,000个结果(0.41秒)"。这包括www.yahoo.com
和it.yahoo.com
等子域名。
另请注意,有些网站会动态生成页面,因此实际上它们可能会有无限的页面"。给定页面将在被要求时计算,并在发送后立即被遗忘。每个都可以链接到下一页。由于许多网站都在动态编写页面,因此没有真正的区别(除了有无限的页面,除非你全部要求,否则你无法找到它们。)
答案 1 :(得分:1)
请记住以下几点:
我倾向于针对具体答案做的是使用wget镜像感兴趣的网站并计算页数。
wget -m --wait=9 --limit-rate=10K http://domain.test
保持缓慢,以便公司不会将您视为拒绝服务攻击。
大多数搜索引擎都允许您按站点搜索他们的索引,尽管结果页面上的信息可能会混淆超过一个粗略的数量级,并且无法知道他们有多少&# 39;已编入索引。
我一眼就看不到他们保留或访问数据库的位置,但是在搜索引擎路径下,您可能也会对Seeks和YaCy搜索引擎感兴趣项目
我能想到的唯一一个组织可能(a)容易获得信息,(b)友好和透明到足以想要分享它的人将是The Internet Archive的人。由于他们使用Wayback Machine长期存档网络并且透明度很高,因此它们可能是一个合理的起点。