HtmlAgilityPack Strip Nested Divs&跨越Html但保留内容

时间:2014-06-26 10:38:54

标签: c# replace html-agility-pack

我让用户尝试将这样的内容粘贴到文本区域

    <p><span style="font-size:16px">
<span dir="RTL">در وقايع تاريخي صدر اسلام لفظ <span style="color:#008000">
<span style="font-size:22px">شيعه </span>
</span>تنها به معناي لغوي آن یعنی <span style="color:#FF0000">مناصره</span> و
<span style="color:#FF0000"> پیروی</span> و متابعه آمده است، بلكه مي‌بينيم كه در عهدنامه حکمیّت و واگذاري حكومت بين دو خليفه علي و معاويه </span>
<span dir="RTL">ب</span> 
<span dir="RTL">كلمه شيعه بر پيروان علي  اطلاق شده؛ همآن‏گونه که</span></span>بر پيروان معاويه نيز اطلاق شده و به پيروان علي اختصاص نيافته است.</p>

正如您所看到的,它有许多嵌套跨度。我对某些人的div也一样。我将如何剥离所有span和div标签,但保留内容InnerText?所以我留下了P标签包裹的一大块文字?

非常感谢任何帮助。

1 个答案:

答案 0 :(得分:-2)

如何使用正则表达式?

// Remove all tags
string clean = Regex.Replace(dirty, "<[^>]*>", "");

// put back the P tag
string result = "<p>" + clean  + "</p>"