解析UTF-8编码的网页

时间:2016-03-22 13:02:35

标签: c# encoding utf-8

如果我从网站上收到一些数据,我会得到以下字符串:

Peter Tester   â‚‹   Max Mustermann

主页的元信息向我显示编码是UTF-8,我写了一个小函数将UTF-8转换为Base64(Base64是默认C#项目的正确字符集还是?)

private String UTF8toBase64(string input)
{
    var bytes = Encoding.UTF8.GetBytes(input);
    return Convert.ToBase64String(bytes);
}

但是这个函数返回一个这样的字符串:

"S3lsZSBFZG11bmQgJm5ic3A7IMOi4oCa4oC5ICZuYnNwOyZuYnNwO0ppcmkgVmVzZWx5"

2 个答案:

答案 0 :(得分:0)

我相信你只想要:

return Encoding.UTF8.GetString(bytes);

答案 1 :(得分:0)

我在VB中找到了一个具有相同问题的线程

HTML encoding issues - “” character showing up instead of “ ”

C#中的相同功能很好用,在替换“â,<”之后,我有一个我可以使用的字符串:-)

感谢您的帮助

Regex.Replace(input, "[^\u0000-\u007F]", "&nbsp;")