使用C#中的htmlagilitypack过滤已解析HTML中的内容

时间:2014-01-13 13:40:30

标签: c# filtering html-agility-pack

我无法从HMTL文档中过滤正确的数据,我不知道如何继续。

基本上我需要存储介于/ h3和h3标签之间的数据,因此每个段落和html代码介于两者之间。例如,我有这个方法打印所有标题:

    static void Printheaders()
    // gives headers
    {
        HtmlDocument voorbeeld = new HtmlDocument();
        string path = "voorbeeld.html";
        voorbeeld.OptionFixNestedTags = true;
        voorbeeld.Load(path);

        var test = voorbeeld.DocumentNode.SelectNodes("//h3");

        int c = 0;
        string[] s = new string[test.Count()];


        foreach (var a in test)
        {
            s[c] = a.InnerText;
            Console.WriteLine("Naam hoofdstuk: " + s[c]);
            c++;

        }

我希望标题后面的相应代码到每个标题打印的下一个标题。我当前的代码基本上打印了一个列表,其中包含''Naam hoofdstuk:'''''标题名称''。 如何在所有标题之间选择数据,html文件中每个标题之间有很多段落,而选择// p的节点并不能提供所需的结果。

编辑: 要添加,我的问题是,HtmlAgilityPack可以解析一个特定html标记的结尾和另一个html标记的开头之间的元素,而不是标记内的某些内容!

0 个答案:

没有答案