我必须从维基百科下载(例如1000)随机文章,然后使用Html Agility Pack,从html文件/字符串中删除所有html / scripts标签。我该如何下载?这个库有从www下载文章的任何工具吗? 谢谢你的帮助
答案 0 :(得分:1)
使用可以使用WebClient。例如:
var site = new System.Net.WebClient().DownloadString("http://google.com");
答案 1 :(得分:0)
您可以编写一个抓取工具来获取维基百科中的1000个网址,并在HtmlAgilityPack中使用此HtmlWeb:
string Url = "http://something";
HtmlWeb web = new HtmlWeb();
HtmlDocument doc = web.Load(Url);