我正在尝试使用Htmlagility C#加载以下网站的页面源,它始终返回“找不到页面”,但是当我在常规浏览器(chrome)中打开它时,它将显示所有内容。
HtmlAgilityPack.HtmlWeb web = new HtmlWeb();
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc = web.Load("http://www.alfatah.pk/");
答案 0 :(得分:0)
您的代码也得到了404。他们不知何故知道我们不是人类,而是网络机器人!
这对我有用:
HtmlAgilityPack.HtmlWeb web = new HtmlWeb();
web.UserAgent="Mozilla/5.0 (Windows NT 6.2; Win64; x64; rv:63.0) Gecko/20100101 Firefox/63.0";
web.PreRequest += (request) =>
{
request.Headers.Add(HttpRequestHeader.Accept, "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");
request.Headers.Add(HttpRequestHeader.AcceptLanguage, "de-DE");
return true;
};
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc = web.Load("http://www.alfatah.pk/");