是否可以从给定网址获取所有链接以获取给定网站的所有结构?
例如:
www.test.com
www.test.com/page1.aspx
www.test.com/page2.aspx
www.test.com/page3.aspx
www.test.com/page1.aspx?id=1
...
像wget这样的东西,但只适用于retreiving链接
感谢您的帮助
答案 0 :(得分:0)
如果您想要获取页面中的所有链接,可以使用HTML Agility Pack下载,解析和查询HTML中包含的所有链接。
这可以扩展为跟随这些链接(保留一个访问过的链接列表,这样你就不会进入循环),每个链接都可以获得返回页面上的链接。
这些是一种基本爬虫的材料。