摆脱不必要的文本正则表达式

时间:2016-07-28 12:49:14

标签: c# regex parsing

好吧,基本上我遇到麻烦的是这个: 我有一个看起来像这样的字符串

<a class="l _HId" href="http://www.cnbc.com/2016/07/28/royal-dutch-shell-second-quarter-net-profit-comes-in-at-118-billion.html" onmousedown="return rwt(this,&#39;&#39;,&#39;&#39;,&#39;&#39;,&#39;1&#39;,&#39;AFQjCNHzDJMd9KzNaZJKrec-FAMNdP8ujw&#39;,&#39;mb_qkV1ZFbNFLJBX-JNceA&#39;,&#39;0ahUKEwiwmbPolJbOAhVJ6xQKHT1QDFkQqQIIGigAMAA&#39;,&#39;&#39;,&#39;&#39;,event)">Shell sees quarterly profits plummet 70% as low <em>oil price</em> bites</a>

,简化,看起来基本上是这样的:

<a class="l _HId" href="Link" onmousedown="some gibberish">The String that I need <em>I am guessing this is what I searched</em> bites</a>

如果有人能够实现类似的东西,那将会非常有帮助。任何形式的帮助都非常感谢。

提前致谢。

1 个答案:

答案 0 :(得分:1)

确实这个链接帖子回答了我的所有问题:

RegEx match open tags except XHTML self-contained tags

看起来用RegeX解析html并不是最好的想法。