我想生成域名的网址列表,但我宁愿通过不自行抓取域来节省带宽。那么有没有办法使用现有的已爬网数据?
我想到的一个解决方案是做一个Yahoo site search,它允许我以TSV格式下载前1000个结果。但是要获得所有记录,我必须抓取搜索结果。 Google还支持网站搜索,但不提供下载数据的简便方法。
您能想到一种适用于大多数(如果不是全部)网站的更好方法吗?
感谢, 理查德
答案 0 :(得分:3)
答案 1 :(得分:1)
有些网站管理员提供Sitemaps,它们实际上是域名中每个网址的XML列表。但是,除了抓取之外,没有常规解决方案。如果您确实使用了抓取工具,请遵守robots.txt。
答案 2 :(得分:0)
似乎没有皇家网络抓取方式,所以我会坚持我现在的做法......
此外,我发现大多数搜索引擎只会公开前1000个结果。