Question

我目前正在构建一个RSS-Reader，一些网站有奇怪的rss-2.0文件，我必须先修改它们才能显示它们。

其中一个是seen here:

问题是description标签不仅包含描述文本，还包含一些

html-elements，例如<a href ... /> <img src ... />

如何在不查找每个属性的情况下删除所有这些不必要的信息？

Java中有什么东西可用吗？或者是在这种情况下有用的正则表达式？

Answer 1

您可以使用此正则表达式删除HTML标记：

String noHtml = html.replaceAll("\\<.*?>","");

即使我使用jsoup来解析Java中的HTML代码。

Answer 2

忽略所有内部CDATA，例如

<content:encoded><![CDATA[...