htmlagilitypack没有加载页面的完整内容

时间:2013-08-15 09:03:19

标签: c# screen-scraping html-agility-pack

我需要使用给定的网址屏蔽网站。当我尝试加载页面http://cks.nice.org.uk/?char=B的内容时,我得到所有内容(在下面的doc对象中)除了div中的链接(锚元素)与class =“list-wrapper”

有什么想法吗?感谢

using System;
using HtmlAgilityPack;

public partial class _Default : System.Web.UI.Page
{

protected void Page_Load(object sender, EventArgs e)
{
    HtmlWeb web = new HtmlWeb();
    HtmlDocument doc = null;
    doc = web.Load("http://cks.nice.org.uk/?char=B");
}

}

1 个答案:

答案 0 :(得分:0)

我一般不熟悉HtmlAgilityPack或C#,但我可以从刮痧的角度告诉你我会做什么。

您需要获取的文档是http://cks.nice.org.uk/js/topics.txt,它提供了主题名称及其URL的良好JSON结构。解析那个,你会看到一系列对象,如:

{"Title":"Achilles tendinopathy","Slug":"achilles-tendinopathy","Specialities":["Injuries","Musculoskeletal"]},
{"Title":"Acne vulgaris","Slug":"acne-vulgaris","Specialities":["Skin and nail"]}

从每个中获取“Slug”并附加到基本URL以获取每个主题页面,例如http://cks.nice.org.uk/achilles-tendinopathy