从html中删除span标记

时间:2010-10-05 09:46:13

标签: c# html

你能帮我一个代码片段(带/不带正则表达式)从字符串中删除所有span标签,如下所示:(Silverlight - c#)

<a href="#">
  <span class="uiTooltipWrap bottom left leftbottom">
    <span class="uiTooltipText">
      dasd dssa<br />
      adsa sssss
    </span>
  </span>
</a>

感谢。

2 个答案:

答案 0 :(得分:1)

HTMLAgilityPack适合你。

  

这是一个敏捷的HTML解析器,它构建一个读/写DOM并支持普通的XPATH或XSLT(你实际上不需要理解XPATH或XSLT来使用它,不用担心......)。它是一个.NET代码库,允许您解析“out of the web”HTML文件。解析器非常容忍“真实世界”格式错误的HTML。对象模型与提出System.Xml非常类似,但对于HTML文档(或流)。

答案 1 :(得分:-3)

在Perl中我们可以说:

s/
  <     # tag opening character
  \/?   # optional slash
  span
  [^>]* # any non tag-closing characters
  >     # tag closing character
/
        # nothing
/x;

我确信你可以把它翻译成C#正则表达式。即用任何东西替换匹配</?span[^>]*>的任何东西。