我正在尝试找到收集网址的最佳方法,我可以创建自己的小型抓取工具但是我的服务器需要数十年的时间来抓取所有的互联网,并且所需的带宽将是巨大的。另一个想法是使用谷歌的搜索API或雅虎的搜索API,但这不是一个很好的解决方案,因为它需要在我得到结果之前执行搜索。
其他想法包括询问DNS服务器并请求URL列表,但DNS服务器可以限制/限制我的请求,甚至禁止我一起使用。我对DNS服务器的询问知识目前非常有限,所以我不知道这是不是最好的方法。
我只想要一个庞大的网址列表,但我想建立这个列表,而不会在未来遇到问题。有什么想法吗?
我开始学习Python这个项目,但这与这个问题无关。
答案 0 :(得分:2)
$ wget http://s3.amazonaws.com/alexa-static/top-1m.csv.zip
答案 1 :(得分:0)
有多大?一个好的开始是http://www.alexa.com/topsites。他们提供了前1,000,000个网站的下载(按其排名机制)。然后,您可以通过转到Google并为列表中的每个网址抓取查询结果link: url
来展开此列表。
答案 2 :(得分:0)
现代术语现在是URI和URN,URL是缩小/过时的。我会在一个文件中扫描包含许多地址的sitemap个文件,并研究定义URI正则表达式的经典文本spiders, wanderes, brokers and bots和RFC 3305(附录b。第50页)
答案 3 :(得分:0)
您可以注册以访问Verisign
处的整个.com和.net区域文件我没有阅读使用条款的细则,也不知道它的价格是多少(如果有的话)。但是,这会为您提供一个巨大的活动域列表,用作URL。