我使用以下代码从RSS源获取结果:
try:
desc = item.xpath('description')[0].text
if date is not None:
desc =date +"\n"+"\n"+desc
except:
desc = None
但有时这个描述在feed中包含很少的unicode html charecters,如下所示:
XML中的文字看起来像“和'以及其他& ...; stuff
在显示内容时,我不希望它们显示。是否有正则表达式来删除HTML标记。
答案 0 :(得分:1)
我使用了一种名为“Unescaping XML”的东西,不知道它对你有用。
请参阅:http://wiki.python.org/moin/EscapingXml
from xml.sax.saxutils import unescape
unescape("< & >")
'< & >'
unescape("' "", {"'": "'", """: '"'})
'\' "'
修改强>
刚看到这一点,可能是有趣的。 (未经测试):unescape with urllib