正则表达式获取可链接的文本

时间:2016-04-07 13:46:04

标签: regex pcre

我现在已经尝试了几个小时 我需要获取可链接文本含义,来自<a href></a>之间的网页来源的所有文字,但嵌套在<a>标记之间的其他标记除外。
例如:

    <a href="blabla.net">THIS TEXT
<img src="hhh.jpg" />           THIS TEXT TOO
               <span> ALSO THIS TEXT. </span>AND ALSO THIS TEXT</a>

2 个答案:

答案 0 :(得分:0)

您可以使用非贪婪组的简单正则表达式:

<[aA]\b[^\>]*>([\w\W]*?)<\/[aA]>

您可以点击F12然后输入

在此页面上进行测试
$(document.body).html().match(/<a\b[^\>]*>([\w\W]*?)<\/a>/ig)

答案 1 :(得分:0)

您可以尝试使用以下正则表达式,该表达式返回四个组中的标记之间的文本:

(?<=>)[^<]+?(?=<)

它从文本中删除标签。