获取href's
以及其他可嵌入网址的广告代码。简而言之,从给定的Web链接获取所有URL's
。有许多方法可以获取URL's
,即正则表达式,HtmlAgilityPack,Dcsoup等...我想知道哪一个最好?
答案 0 :(得分:1)
关于HtmlAgilityPack,这里是他们示例中的示例代码:
HtmlDocument doc = new HtmlDocument();
doc.Load("file.htm");
foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"])
{
HtmlAttribute att = link["href"];
att.Value = FixLink(att);
}
doc.Save("file.htm");
它抓取具有<a>
属性的所有href
元素。此示例从文件加载文档,但当然可以从字符串加载文档。
答案 1 :(得分:0)
您需要使用类似HtmlAgilityPack的内容来解析HTML文档。您还需要使用XPath轻松解析HTML。
也可以使用正则表达式,但使用XPath更适合这项工作。