Question

编辑：我知道有类似的问题已被问到，但我还没有找到解决这个问题的方法。也许我使用了错误的搜索条件，因为这对我来说是一个新主题，但我还没有找到解决问题的方法。非常感谢您的帮助（甚至是解决方案的链接）。

我有一个HTML文件（从MS Word输出为Filtered HTML），我想得到'MsoTitle'类的内部文本。从我读过的所有内容来看，代码应该可以正常工作，但我一直收到NullReferenceException并且不确定原因。

HTML代码段：

<html>
<head>
<meta http-equiv=Content-Type content="text/html; charset=windows-1252">
<meta name=Generator content="Microsoft Word 15 (filtered)">
</head>
<body lang=EN-US link="#0563C1" vlink="#954F72">
<div class=WordSection1>
<p class=MsoNormal align=center style='text-align:center'><img width=435
height=102 id="Picture 2" src="FUND00_files/image001.png"></p>
<p class=MsoTitle>My Title</p>
...

我的代码：

    HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
    doc.LoadHtml("C:\\Temp\\Output\\FUND00.htm");
    string text = doc.DocumentNode.SelectSingleNode("//p[@class='MsoSubtitle']").InnerText;

在这里看一些建议，我尝试在引号前放置@符号，但这没有任何补救措施。

我是否有错误获取此HTML类的innertext？

HTMLAgilityPack和SelectSingleNode返回空引用

0 个答案: