从String中删除HTML - RSS

时间:2013-12-22 11:45:02

标签: java html regex parsing rss

我目前正在构建一个RSS-Reader,一些网站有奇怪的rss-2.0文件,我必须先修改它们才能显示它们。

其中一个是seen here:

问题是description标签不仅包含描述文本,还包含一些

html-elements,例如<a href ... /> <img src ... />

如何在不查找每个属性的情况下删除所有这些不必要的信息?

Java中有什么东西可用吗?或者是在这种情况下有用的正则表达式?

2 个答案:

答案 0 :(得分:4)

您可以使用此正则表达式删除HTML标记:

String noHtml = html.replaceAll("\\<.*?>","");

即使我使用jsoup来解析Java中的HTML代码。

答案 1 :(得分:2)

忽略所有内部CDATA,例如

<content:encoded><![CDATA[...