Question

我现在已经尝试了几个小时我需要获取可链接文本含义，来自<a href>和</a>之间的网页来源的所有文字，但嵌套在<a>标记之间的其他标记除外。
例如：

    <a href="blabla.net">THIS TEXT
<img src="hhh.jpg" />           THIS TEXT TOO
               <span> ALSO THIS TEXT. </span>AND ALSO THIS TEXT</a>

Answer 1

您可以使用非贪婪组的简单正则表达式：

<[aA]\b[^\>]*>([\w\W]*?)<\/[aA]>

您可以点击F12然后输入

在此页面上进行测试

$(document.body).html().match(/<a\b[^\>]*>([\w\W]*?)<\/a>/ig)

Answer 2

您可以尝试使用以下正则表达式，该表达式返回四个组中的标记之间的文本：

(?<=>)[^<]+?(?=<)

它从文本中删除标签。