如何使用Java Html Class删除包含内容的特定html类

时间:2015-08-20 16:45:53

标签: java html regex

最近我正在开发一个Android项目。我正在解析wordpress api中的数据。但详细的帖子内容是在html formet中。我必须删除html标签。使用Html.fromHtml()。toString()java方法我删除了所有标签。但是我必须删除一些图像标题。要删除标题,我必须找到标记类。那么如何使用Html Class删除此内容?

<p class="wp-caption-text">android m marshmallow</

编辑:

使用正则表达式我解决了我的问题。

Regex中插入您的特定Html,您将获得正则表达式。

 yourHtml = yourHtml.replaceAll("Your_Regular_Expression","");
 yourHtml = Html.fromHtml(yourHtml).toString();

1 个答案:

答案 0 :(得分:2)

如果你想得到一个匹配,你可以试试这个:

<(\w+).*?class="wp-caption-text".*?>[\s\S]*?<\/\1>

Regex101

我想提一下,这不是一个完美的解决方案。正则表达式在解析html方面不是很擅长,因为该标记语言中的结构实际上太复杂,100%不能被正则表达式解析。见here