如何获取域的URL列表

时间:2009-06-28 05:11:07

标签: url dns screen-scraping web-crawler

我想生成域名的网址列表,但我宁愿通过不自行抓取域来节省带宽。那么有没有办法使用现有的已爬网数据?

我想到的一个解决方案是做一个Yahoo site search,它允许我以TSV格式下载前1000个结果。但是要获得所有记录,我必须抓取搜索结果。 Google还支持网站搜索,但不提供下载数据的简便方法。

您能想到一种适用于大多数(如果不是全部)网站的更好方法吗?

感谢, 理查德

3 个答案:

答案 0 :(得分:3)

您可以通过此在线工具免费下载最多500个网址的列表:

XML Sitemap Generator

...只需在工具抓取您的网站后选择“文字列表”。

答案 1 :(得分:1)

有些网站管理员提供Sitemaps,它们实际上是域名中每个网址的XML列表。但是,除了抓取之外,没有常规解决方案。如果您确实使用了抓取工具,请遵守robots.txt。

答案 2 :(得分:0)

似乎没有皇家网络抓取方式,所以我会坚持我现在的做法......

此外,我发现大多数搜索引擎只会公开前1000个结果。