应用错误收集

时间：2010-01-07 18:24:12

标签： .net xml encoding

我知道这可能很简单，之前可能已被问过，但我遇到了解决问题的麻烦。

我正在解析一些包含HTML作为CDATA块的RSS源。这里有一个例子：http://g.msn.com/1ewenus50/news2

Feed变化很大，但几乎总有一些扩展字符。例如，如果我创建一个简单的控制台应用程序并使用WebClient.DownloadString并查看结果，我会看到像

这样的内容 “当他在圣诞节当天飞行途中时，得知了所谓的253航班轰炸机的极端主义链接.NBC的Savannah Guthrie报道。（今日节目）”

然而，那些奇怪的字符应该是撇号，引号，破折号等等。

让这些正确解码的技巧是什么？

如果不清楚，我正在使用C＃/ .NET。最后，这些内容将在Silverlight中呈现，但我也在完整的.NET 3.5运行时中看到了这个问题。

答案 0 :(得分：0)

以二进制形式下载并将其解析为XML。那个应该正确 - XML文档应该在编码方面自我描述，但是我不会把它放在一些网络服务器上来宣传它（在标题中）具有不同的编码，哪会混淆DownloadString。

通常，当涉及XML时，值得在XML API中尽可能多地使用原始数据。

答案 1 :(得分：0)

您可能正在使用错误的文本编码...我不确定您使用的是哪一个或哪个是正确的，但这可能会让您走上正轨。