查找超链接文本和URL

时间:2011-07-19 10:25:09

标签: c# asp.net

我有一个大文本,有些单词是超链接的,我想知道所有的文本,它的超链接url假设我的文字如下:

LoremIpsum.Net是一个小而简单的静态网站,无需使用generator即可为您提供合适的通道。该网站还提供了全文大写版本的文本,以及翻译,并解释了这一着名的内容。

现在我想将这个超链接的单词和它的url存储在数组或哈希表中,任何人都可以建议我或者提供一些示例代码来执行此操作。

提前致谢。

2 个答案:

答案 0 :(得分:1)

请参阅此页面上的“使用Regex [C#]进行抓取的程序”:http://www.dotnetperls.com/scraping-html

它基本上可以通过重复你的文字和收集比赛来实现。

答案 1 :(得分:0)

尝试HTMLAgilityPack http://www.codeplex.com/htmlagilitypack

这样的东西
 HtmlDocument doc = new HtmlDocument();
 doc.Load("file.htm");
 foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"])
 {
     HtmlAttribute att = link["href"];
   // these are your hrefs!
 }

如果您没有使用正确的HTML解析器,您将会失去理智。