Twitter RSS提要双重逃避特殊字符?我如何使用Universal Feed Parser处理这个问题?

时间:2011-06-17 04:12:04

标签: python feedparser

我正在使用Universal Feed Parser

解析一组Feed

看起来当twitter生成RSS提要时,它会双重转义<description />字段中的某些特殊字符。例如,假设我发推文:

  

我无法解析这个!

实际上是

I can&apos;t parse this!

在HTML实体中。

当您从Twitter的RSS或Atom提要中查看裸XML时,它就会被呈现:

I can&amp;apos;t parse this!

Universal Feed Parser似乎有一些严重的问题。当您解析其中一个条目并查看它如何解析时,您最终得到:

 I can&amp;apost parse this!

在屏幕上呈现为

我可以解释这个!

我有什么想法让我这样做?当我在Firefox中打开feed时,实体处理正确,所以很明显可以正确解析字符串。

我很确定Universal Feed Parser的行为不正确,但我很难找到需要修复的代码部分。

我也很困惑,因为它在网站上声明:“3000单元测试。”

当然,其中一项测试会查看包含实体的Feed吗?

0 个答案:

没有答案