我知道这可能很简单,之前可能已被问过,但我遇到了解决问题的麻烦。
我正在解析一些包含HTML作为CDATA块的RSS源。这里有一个例子:http://g.msn.com/1ewenus50/news2
Feed变化很大,但几乎总有一些扩展字符。例如,如果我创建一个简单的控制台应用程序并使用WebClient.DownloadString并查看结果,我会看到像
这样的内容 “当他在圣诞节当天飞行途中时,得知了所谓的253航班轰炸机的极端主义链接.NBC的Savannah Guthrie报道。(今日节目)”然而,那些奇怪的字符应该是撇号,引号,破折号等等。
让这些正确解码的技巧是什么?
如果不清楚,我正在使用C#/ .NET。最后,这些内容将在Silverlight中呈现,但我也在完整的.NET 3.5运行时中看到了这个问题。
答案 0 :(得分:0)
以二进制形式下载并将其解析为XML。那个应该正确 - XML文档应该在编码方面自我描述,但是我不会把它放在一些网络服务器上来宣传它(在标题中)具有不同的编码,哪会混淆DownloadString
。
通常,当涉及XML时,值得在XML API中尽可能多地使用原始数据。
答案 1 :(得分:0)
您可能正在使用错误的文本编码...我不确定您使用的是哪一个或哪个是正确的,但这可能会让您走上正轨。