无法解析页面主体

时间:2017-10-26 07:07:12

标签: c# .net parsing html-agility-pack

我正在尝试从一个页面解析一些href,我的代码如下:

WebClient webClient = new WebClient();
string htmlCode = webClient.DownloadString("https://www.firmy.cz/Auto-moto");
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(htmlCode);
HtmlNodeCollection collection = doc.DocumentNode.SelectNodes("//div[contains(@class,'companyWrap')]");
string target = "";
foreach (HtmlNode link in collection)
{
    target = target +"\n"+ link.Attributes["href"].Value;
}

在这个页面上我的doc.ParsedText没有身体<body id="root" class="root"> </body>,但如果我转到页面,我会看到身体的元素。你能告诉我哪里有问题吗?

  

块引用

1 个答案:

答案 0 :(得分:0)

如果您查看要解析的网址的来源(https://www.firmy.cz/Auto-moto),则可以看到正文为空。

似乎页面在客户端通过JavaScript加载内容,因此无法解析。