我想从给定的HTML代码中提取纯文本。我尝试使用regex
并获得了
String target = val.replaceAll("<a.*</a>", "");
。
我的主要要求是我要删除<a>
和</a>
之间的所有内容(包括链接名称)。使用上面的代码时,所有其他内容也被删除。
<a href="www.google.com">Google</a>
这是Google链接
<a href="www.yahoo.com">Yahoo</a>
这是Yahoo链接
我希望删除<a>
和</a>
之间的值。
最终输出
This is a Google Link This is a Yahoo Link
答案 0 :(得分:19)
使用非贪婪量词(*?
)。例如,要完全删除链接:
String target = val.replaceAll("<a.*?</a>", "");
或者仅使用链接标记的内容替换链接:
String target = val.replaceAll("<a[^>]*>(.*?)</a>", "This is a $1 Link");
但是,我仍然建议使用正确的DOM操作API。