如何在c#中读取HTML行作为字符串

时间:2012-09-29 16:37:03

标签: c# .net

我正在尝试从不同页面的页面源获取页面标题。但是我们可以说有些页面的标题是这样的:

"This is an example," ABC.

它有一些html就像“”“。如果我在c#中使用字符串来获得这个标题我得到了整个东西,而显示它就像上面那样显示错误。有没有办法忽略或采取考虑到c#中的html值?

我也在使用htmlagilitypack,所以其中的任何东西也都可以。

2 个答案:

答案 0 :(得分:3)

您可以使用WebUtility.HtmlDecode解码html,链接MSDN

WebUtility.HtmlDecode(""This is an example," ABC.");

只需使用:

using System.Net;

结果将是:“\”这是一个例子,“ABC。”

您还可以在HtmlEntity.DeEntitize中使用HTML Agility Pack

HtmlEntity.DeEntitize(string text)

答案 1 :(得分:0)

您不知道在页面标题中可以找到什么。有时在那里一团糟。我的建议是按原样获取字符串并在显示/保存之前对其进行处理。

在这种情况下,解决方案很简单:替换

"

与相应的char。

每次阅读HTML文档以提取某些标记时,请注意标记从未关闭。如果用户忘记关闭标题标签......您将在整行页面中获取该行!