编辑:我知道有类似的问题已被问到,但我还没有找到解决这个问题的方法。也许我使用了错误的搜索条件,因为这对我来说是一个新主题,但我还没有找到解决问题的方法。非常感谢您的帮助(甚至是解决方案的链接)。
我有一个HTML文件(从MS Word输出为Filtered HTML),我想得到'MsoTitle'类的内部文本。从我读过的所有内容来看,代码应该可以正常工作,但我一直收到NullReferenceException并且不确定原因。
HTML代码段:
<html>
<head>
<meta http-equiv=Content-Type content="text/html; charset=windows-1252">
<meta name=Generator content="Microsoft Word 15 (filtered)">
</head>
<body lang=EN-US link="#0563C1" vlink="#954F72">
<div class=WordSection1>
<p class=MsoNormal align=center style='text-align:center'><img width=435
height=102 id="Picture 2" src="FUND00_files/image001.png"></p>
<p class=MsoTitle>My Title</p>
...
我的代码:
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml("C:\\Temp\\Output\\FUND00.htm");
string text = doc.DocumentNode.SelectSingleNode("//p[@class='MsoSubtitle']").InnerText;
在这里看一些建议,我尝试在引号前放置@符号,但这没有任何补救措施。
我是否有错误获取此HTML类的innertext?