我打算写一个Web解析器(一个从一个站点到另一个站点爬行的应用程序)。
如何在互联网上找到可用域名/ IP列表(尽可能完整)?
搜索引擎如何找到网站(他们使用什么作为可靠的注册IP /域名列表的起点)?
由于
答案 0 :(得分:1)
正如Michael P的评论所指出的,取决于你的目标是什么。
我公司最近想回答有关领先网站上使用的第三方工具的问题。我使用Alexa作为起点来找到顶级(按流量)网站,并创建了一个解析器,可以回答我公司提出的具体问题。如果您从这样的列表开始,您可以对您的网络爬虫进行编程,以便按照它遇到的链接来扩大您对网站上网站的了解。
希望这可以帮助您思考问题。