获取指定域中所有网站的链接,任何工具?

时间:2012-03-12 16:20:37

标签: c# javascript asp.net html

是否可以从给定网址获取所有链接以获取给定网站的所有结构?

例如:

www.test.com
www.test.com/page1.aspx
www.test.com/page2.aspx
www.test.com/page3.aspx
www.test.com/page1.aspx?id=1
...

像wget这样的东西,但只适用于retreiving链接

感谢您的帮助

1 个答案:

答案 0 :(得分:0)

如果您想要获取页面中的所有链接,可以使用HTML Agility Pack下载,解析和查询HTML中包含的所有链接。

这可以扩展为跟随这些链接(保留一个访问过的链接列表,这样你就不会进入循环),每个链接都可以获得返回页面上的链接。

这些是一种基本爬虫的材料。