Question

我正在尝试从不同页面的页面源获取页面标题。但是我们可以说有些页面的标题是这样的：

&quot;This is an example,&quot; ABC.

它有一些html就像“”“。如果我在c＃中使用字符串来获得这个标题我得到了整个东西，而显示它就像上面那样显示错误。有没有办法忽略或采取考虑到c＃中的html值？

我也在使用htmlagilitypack，所以其中的任何东西也都可以。

Answer 1

您可以使用WebUtility.HtmlDecode解码html，链接MSDN：

WebUtility.HtmlDecode("&quot;This is an example,&quot; ABC.");

只需使用：

using System.Net;

结果将是：“\”这是一个例子，“ABC。”

您还可以在HtmlEntity.DeEntitize中使用HTML Agility Pack：

HtmlEntity.DeEntitize(string text)

Answer 2

您不知道在页面标题中可以找到什么。有时在那里一团糟。我的建议是按原样获取字符串并在显示/保存之前对其进行处理。

在这种情况下，解决方案很简单：替换

&quot;

与相应的char。

每次阅读HTML文档以提取某些标记时，请注意标记从未关闭。如果用户忘记关闭标题标签......您将在整行页面中获取该行！