我现在已经尝试了几个小时
我需要获取可链接文本含义,来自<a href>
和</a>
之间的网页来源的所有文字,但嵌套在<a>
标记之间的其他标记除外。
例如:
<a href="blabla.net">THIS TEXT
<img src="hhh.jpg" /> THIS TEXT TOO
<span> ALSO THIS TEXT. </span>AND ALSO THIS TEXT</a>
答案 0 :(得分:0)
您可以使用非贪婪组的简单正则表达式:
<[aA]\b[^\>]*>([\w\W]*?)<\/[aA]>
您可以点击F12然后输入
在此页面上进行测试$(document.body).html().match(/<a\b[^\>]*>([\w\W]*?)<\/a>/ig)
答案 1 :(得分:0)
您可以尝试使用以下正则表达式,该表达式返回四个组中的标记之间的文本:
(?<=>)[^<]+?(?=<)
它从文本中删除标签。