Question

我必须从维基百科下载（例如1000）随机文章，然后使用Html Agility Pack，从html文件/字符串中删除所有html / scripts标签。我该如何下载？这个库有从www下载文章的任何工具吗？谢谢你的帮助

Answer 1

使用可以使用WebClient。例如：

 var site = new System.Net.WebClient().DownloadString("http://google.com");

Answer 2

您可以编写一个抓取工具来获取维基百科中的1000个网址，并在HtmlAgilityPack中使用此HtmlWeb：

string Url = "http://something";
HtmlWeb web = new HtmlWeb();
HtmlDocument doc = web.Load(Url);