我正在撰写博客软件。有时,用户会设法将控制字符粘贴到他们的博客帖子中(例如,最近设法粘贴在垂直制表符中的人,?)。当我们在RSS Feed中呈现帖子时,XML解析器无法解析控制字符并声明该提要无效。
解决此问题的一种方法是对字符串进行逐字符扫描并删除任何无效字符。这意味着要维护一个无效字符列表。有谁知道这样的清单是否已经存在?
或者有人知道库已经处理过这个问题了吗?我用C#编写,但我可以移植用另一种语言编写的库。
或者是否有一些我缺少的解决方案?
注意,这似乎不是unicode或逃避问题。 RSS提要显示括号,中文字符,wingdings,智能引号等等。只是某些控制字符似乎使得Feed无法验证。
答案 0 :(得分:1)
嗯。看起来这个页面有一个很好的解决方案: http://cse-mjmcl.cse.bris.ac.uk/blog/2007/02/14/1171465494443.html
他们从XML规范中获取有效字符列表,然后遍历字符串并删除无效字符。
答案 1 :(得分:0)
查看用于构建RSS源的Argotic framework。图书馆非常好地处理所有事情。