正在删除<a href=""> tag using regex</a>

时间:2014-01-01 10:36:58

标签: html regex

我想从给定的HTML代码中提取纯文本。我尝试使用regex并获得了

String target = val.replaceAll("<a.*</a>", "");

我的主要要求是我要删除<a></a>之间的所有内容(包括链接名称)。使用上面的代码时,所有其他内容也被删除。

<a href="www.google.com">Google</a> 这是Google链接

<a href="www.yahoo.com">Yahoo</a> 这是Yahoo链接

我希望删除<a></a>之间的值。 最终输出

This is a Google Link This is a Yahoo Link

1 个答案:

答案 0 :(得分:19)

使用非贪婪量词(*?)。例如,要完全删除链接:

String target = val.replaceAll("<a.*?</a>", "");

或者仅使用链接标记的内容替换链接:

String target = val.replaceAll("<a[^>]*>(.*?)</a>", "This is a $1 Link");

但是,我仍然建议使用正确的DOM操作API。