我正在尝试从不同页面的页面源获取页面标题。但是我们可以说有些页面的标题是这样的:
"This is an example," ABC.
它有一些html就像“”“。如果我在c#中使用字符串来获得这个标题我得到了整个东西,而显示它就像上面那样显示错误。有没有办法忽略或采取考虑到c#中的html值?
我也在使用htmlagilitypack,所以其中的任何东西也都可以。
答案 0 :(得分:3)
您可以使用WebUtility.HtmlDecode
解码html,链接MSDN:
WebUtility.HtmlDecode(""This is an example," ABC.");
只需使用:
using System.Net;
结果将是:“\”这是一个例子,“ABC。”
您还可以在HtmlEntity.DeEntitize
中使用HTML Agility Pack
:
HtmlEntity.DeEntitize(string text)
答案 1 :(得分:0)
您不知道在页面标题中可以找到什么。有时在那里一团糟。我的建议是按原样获取字符串并在显示/保存之前对其进行处理。
在这种情况下,解决方案很简单:替换
"
与相应的char。
每次阅读HTML文档以提取某些标记时,请注意标记从未关闭。如果用户忘记关闭标题标签......您将在整行页面中获取该行!