如何使用Asp.net的抓取过程获取网站的所有网址?

时间:2011-06-11 14:01:55

标签: c# asp.net screen-scraping web-crawler

如何获取网站的所有网址

假设我想抓取网站中某些部分的数据,这些网站在不同的网页中如何获取所有网址列表以进入所有相似的网页。

假设在手机网站中我想获得一个品牌的所有手机,我怎样才能获得位于该网站不同网址的手机。我发现Div标签类是所有手机的“品牌名称”

Div Class“诺基亚”....我想要将div类作为诺基亚的网站的URL。

1 个答案:

答案 0 :(得分:2)

您可以使用Html Agility Pack之类的HTML解析器从锚点,表单中提取所有网址...如果网址不是您正在解析的HTML的一部分,那么您将无法解析(除了< em>猜测)知道给定域名中存在的所有可能的子域名和URL。