c#使用Argotic Syndication Framework对html进行rss描述

时间:2013-07-15 14:10:52

标签: c# html rss

我正在使用Argotic Syndication Framework将RSS订阅源解析为Feed项。但是我需要删除所有html的描述。

以下显示了RSS订阅源描述的示例。

Jeg blev i maj inviteret til at holde et oplæg som keynote speaker på en konference i Alaska i HETL-regi (The International Higher Education Teaching and Learning Association). Patrick Blessinger, stifteren af HETL, har netop medvirket i et amerikansk online radio &#8230; <a href="http://aesbrock.wordpress.com/2013/07/12/niels-brock-naevnt-i-amerikansk-radio-interview/">Læs resten <span class="meta-nav">&#8594;</span></a><img alt="" border="0" src="http://stats.wordpress.com/b.gif?host=aesbrock.wordpress.com&#038;blog=978571&#038;post=4538&#038;subd=aesbrock&#038;ref=&#038;feed=1" width="1" height="1" />

我希望它只是在没有html的情况下显示为文本。

我尝试使用以下正则表达式

Regex.Replace(item.Description, @"<(.|\n)*?>", string.Empty);

但这不太正确;

我看到了关于使用HTMLAgilityPack的建议,但我想避免使用外部库。

非常感谢任何建议。

1 个答案:

答案 0 :(得分:0)

感谢Pete的建议,但它仍然留下了一些HTML。我最终这样做了。

HttpUtility.HtmlDecode(Regex.Replace(item.Description, @"<!--[\S\s]*?-->|<(?:"".*?""|'.*?'|[\S\s])*?>", ""));

它来自一个帖子(在webz上的某个地方),但我没有给它添加书签,所以如果有人认出它 - 谢谢:)我希望它可以帮助别人。