内部和外部外部链接

时间:2015-04-03 10:42:01

标签: c#

获取href's以及其他可嵌入网址的广告代码。简而言之,从给定的Web链接获取所有URL's。有许多方法可以获取URL's,即正则表达式,HtmlAgilityPack,Dcsoup等...我想知道哪一个最好?

2 个答案:

答案 0 :(得分:1)

关于HtmlAgilityPack,这里是他们示例中的示例代码:

HtmlDocument doc = new HtmlDocument();
doc.Load("file.htm");
foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"])
{
    HtmlAttribute att = link["href"];
    att.Value = FixLink(att);
}
doc.Save("file.htm");

它抓取具有<a>属性的所有href元素。此示例从文件加载文档,但当然可以从字符串加载文档。

答案 1 :(得分:0)

您需要使用类似HtmlAgilityPack的内容来解析HTML文档。您还需要使用XPath轻松解析HTML。

也可以使用正则表达式,但使用XPath更适合这项工作。