Question

好吧，基本上我遇到麻烦的是这个：我有一个看起来像这样的字符串

<a class="l _HId" href="http://www.cnbc.com/2016/07/28/royal-dutch-shell-second-quarter-net-profit-comes-in-at-118-billion.html" onmousedown="return rwt(this,&#39;&#39;,&#39;&#39;,&#39;&#39;,&#39;1&#39;,&#39;AFQjCNHzDJMd9KzNaZJKrec-FAMNdP8ujw&#39;,&#39;mb_qkV1ZFbNFLJBX-JNceA&#39;,&#39;0ahUKEwiwmbPolJbOAhVJ6xQKHT1QDFkQqQIIGigAMAA&#39;,&#39;&#39;,&#39;&#39;,event)">Shell sees quarterly profits plummet 70% as low <em>oil price</em> bites</a>

，简化，看起来基本上是这样的：

<a class="l _HId" href="Link" onmousedown="some gibberish">The String that I need <em>I am guessing this is what I searched</em> bites</a>

如果有人能够实现类似的东西，那将会非常有帮助。任何形式的帮助都非常感谢。

提前致谢。

Answer 1

确实这个链接帖子回答了我的所有问题：

RegEx match open tags except XHTML self-contained tags

看起来用RegeX解析html并不是最好的想法。

摆脱不必要的文本正则表达式

1 个答案: