获取从网页到文本框的链接(vb.net + html敏捷包)

时间:2010-09-18 00:14:09

标签: vb.net screen-scraping html-agility-pack

我正在使用htmlagilitypack创建一个vb.net应用程序。我需要从yellowpages.ca

获取个人资料链接

以下是html的示例:

<a href="/bus/Ontario/Brampton/A-Safe-Self-Storage/17142.html?what=af&amp;where=Ontario&amp;le=1238793c7aa%7Ccf8042ceaa%7C2ae32e5a2a" onmousedown="utag.link({link_name:'busname', link_attr1:'in_listing_left', listing_link:'18063_lpp|busname_af', headdir_link:'01252110|092202,00891210|092202,00184200|092202', position_address:'l_y', position_number:'l_6'});" id="mapLink5" title="See detailed information for A Safe Self Storage"><span class="listingTitle">A Safe Self Storage</span></a>

这是链接“/bus/Ontario/Brampton/A-Safe-Self-Storage/17142.html?what=af&where=Ontario&le=1238793c7aa%7Ccf8042ceaa%7C2ae32e5a2a”。

我们将不胜感激。

1 个答案:

答案 0 :(得分:2)

您需要检查文档。

以下是读取存储在PC上的HTML文件的示例

HtmlDocument doc = new HtmlDocument();
 doc.Load("file.htm");
 foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"])
 {
    HtmlAttribute att = link["href"];
    att.Value = FixLink(att);
 }
 doc.Save("file.htm");

使用转换器转换为VB.NET。这一行是关键

  

HtmlNode链接   doc.DocumentElement.SelectNodes( “//一个[@href”])

同样,您需要阅读文档并了解如何解析HTML DOM。

Here是加载和解析网页的示例。您需要使用“HttpWebRequest”将网页流式传输到网络服务器。

补充阅读here