我正在转换网页的源并落在不间断的空格字符上,该字符以\uEFBFBD
结尾,即Unicode替换字符??或问号。
如果我查看网页,就会看到
最后更新于2018年8月31日
如果我查看网页的源代码,就会看到
last updated on 31 August 2018.
在C#代码中,我这样获取并转换页面
var htmlData = webClient.DownloadData(Settings._Url);
var source = Encoding.UTF8.GetString(htmlData);
或
var htmlData = webClient.DownloadData(Settings._Url);
var source = Encoding.ASCII.GetString(htmlData);
在第一个示例中,不间断空格最终以Unicode替换字符�出现,在第二个示例中,它们最终以问号?结束。
从the documentation中我了解到,两个编码器Encoding.UTF8和Encoding.ASCII正在将它们无法表示的字节替换为后备字符。
是否有一种简单的方法可以将ASCII编码器使用的后备字符从问号更改为空格?