我无法从HMTL文档中过滤正确的数据,我不知道如何继续。
基本上我需要存储介于/ h3和h3标签之间的数据,因此每个段落和html代码介于两者之间。例如,我有这个方法打印所有标题:
static void Printheaders()
// gives headers
{
HtmlDocument voorbeeld = new HtmlDocument();
string path = "voorbeeld.html";
voorbeeld.OptionFixNestedTags = true;
voorbeeld.Load(path);
var test = voorbeeld.DocumentNode.SelectNodes("//h3");
int c = 0;
string[] s = new string[test.Count()];
foreach (var a in test)
{
s[c] = a.InnerText;
Console.WriteLine("Naam hoofdstuk: " + s[c]);
c++;
}
我希望标题后面的相应代码到每个标题打印的下一个标题。我当前的代码基本上打印了一个列表,其中包含''Naam hoofdstuk:'''''标题名称''。 如何在所有标题之间选择数据,html文件中每个标题之间有很多段落,而选择// p的节点并不能提供所需的结果。
编辑: 要添加,我的问题是,HtmlAgilityPack可以解析一个特定html标记的结尾和另一个html标记的开头之间的元素,而不是标记内的某些内容!