我正在使用HTML Agility Pack来选择一个元素,并从加载的html字符串返回该元素及其包含的所有内容。在测试我的代码时,我针对来自w3schools的select标签示例运行它:
<select name="cars">
<option value="volvo">Volvo XC90</option>
<option value="saab">Saab 95</option>
<option value="mercedes">Mercedes SLK</option>
<option value="audi">Audi TT</option>
</select>
当我尝试使用HTML敏捷包选择并返回时,我得到(删除选项结束标记):
<select name="cars">
<option value="volvo">Volvo XC90
<option value="saab">Saab 95
<option value="mercedes">Mercedes SLK
<option value="audi">Audi TT
</select>
所以我在这里做了一些搜索并找到了添加该行的说明: HtmlNode.ElementsFlags.Remove( “选项”);
我做到了,现在我得到了(选项文本被移出选项标签之外):
<select name="cars">
<option value="volvo"></option>Volvo XC90
<option value="saab"></option>Saab 95
<option value="mercedes"></option>Mercedes SLK
<option value="audi"></option>Audi TT
</select>
我希望输出与原始HTML匹配。我需要做些什么来做到这一点?
我也在使用OptionWriteEmptyNodes,因为当我使用输入标签进行测试时,他们的自我关闭被删除了,添加该选项似乎解决了这个问题。我现在评论它以确保它不会影响这个问题。
这是我的.NET C#代码:
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(content);
HtmlNode.ElementsFlags.Remove("option"); // otherwise, the closing tag is removed.
//doc.OptionWriteEmptyNodes = true;
var nodes = doc.DocumentNode.SelectNodes("//select");
if (nodes == null)
return "Not found";
else
return nodes[0].OuterHtml;
答案 0 :(得分:4)
您需要为选项标记设置ElementsFlag字段以使其正常工作
HtmlNode.ElementsFlags["option"] = HtmlElementFlag.Closed;
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);
应返回原始HTML代码。
我认为HtmlAgilityPack以这种方式运行的原因是因为<option>
- 标签是具有讽刺意味 HTML中的可选标签,不需要结束标记。
取自HtmlNode
类及其字段ElementsFlags
的文档:
获取标志的集合,这些标志定义特定的特定行为 元素节点。该表包含一个DictionaryEntry列表 小写标记名称为Key,以及HtmlElementFlags的组合 作为价值。
进一步查看HtmlElementFlag
枚举显示:
空 - 节点为空。 META或IMG是此类节点的示例。 已关闭 - 解析期间节点将自动关闭。
您可以查看课程HtmlNode的源代码,了解哪些其他代码被视为“特定”。