我有一个大文本,有些单词是超链接的,我想知道所有的文本,它的超链接url假设我的文字如下:
LoremIpsum.Net是一个小而简单的静态网站,无需使用generator即可为您提供合适的通道。该网站还提供了全文大写版本的文本,以及翻译,并解释了这一着名的内容。
现在我想将这个超链接的单词和它的url存储在数组或哈希表中,任何人都可以建议我或者提供一些示例代码来执行此操作。
提前致谢。
答案 0 :(得分:1)
请参阅此页面上的“使用Regex [C#]进行抓取的程序”:http://www.dotnetperls.com/scraping-html
它基本上可以通过重复你的文字和收集比赛来实现。
答案 1 :(得分:0)
尝试HTMLAgilityPack http://www.codeplex.com/htmlagilitypack
像
这样的东西 HtmlDocument doc = new HtmlDocument();
doc.Load("file.htm");
foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"])
{
HtmlAttribute att = link["href"];
// these are your hrefs!
}
如果您没有使用正确的HTML解析器,您将会失去理智。