我如何从网站下载文章?

时间:2016-12-27 10:08:15

标签: c# html-agility-pack

我必须从维基百科下载(例如1000)随机文章,然后使用Html Agility Pack,从html文件/字符串中删除所有html / scripts标签。我该如何下载?这个库有从www下载文章的任何工具吗? 谢谢你的帮助

2 个答案:

答案 0 :(得分:1)

使用可以使用WebClient。例如:

 var site = new System.Net.WebClient().DownloadString("http://google.com");

答案 1 :(得分:0)

您可以编写一个抓取工具来获取维基百科中的1000个网址,并在HtmlAgilityPack中使用此HtmlWeb:

string Url = "http://something";
HtmlWeb web = new HtmlWeb();
HtmlDocument doc = web.Load(Url);