我目前正在构建一个RSS-Reader,一些网站有奇怪的rss-2.0文件,我必须先修改它们才能显示它们。
其中一个是seen here:
问题是description标签不仅包含描述文本,还包含一些
html-elements,例如<a href ... />
<img src ... />
如何在不查找每个属性的情况下删除所有这些不必要的信息?
Java中有什么东西可用吗?或者是在这种情况下有用的正则表达式?
答案 0 :(得分:4)
答案 1 :(得分:2)
忽略所有内部CDATA,例如
<content:encoded><![CDATA[...