在c#中解码HTML字符串

时间:2017-10-11 10:55:54

标签: c# character-encoding html-parsing decoding

我有一个格式化的字符串:

  

Un peque \ u00F1o jard \ u00EDn

我需要这个:

  

Unpequeñojardín

网页上有chaset = uft-8:

的元标记
<meta http-equiv="content-type" content="text/html; charset=utf-8">

我尝试解决:

// Original text after regex capture
string text = "Un peque\\u00F1o jard\\u00EDn";
// Result 1: Un peque\\u00F1o jard\\u00EDn
string res1 =Encoding.UTF8.GetString(Encoding.UTF8.GetBytes(text));
// Result 2: Un peque\\u00F1o jard\\u00EDn
string res2 = System.Net.WebUtility.HtmlDecode(text);

我认为这个编码是BigEndian 16,我尝试使用 Encoding.BigEndianUnicode ,以及其他具有意外结果的编码。

如何解码为“Unpequeñojardín”?

谢谢你的时间!

0 个答案:

没有答案