我正在使用Argotic Syndication Framework
将RSS订阅源解析为Feed项。但是我需要删除所有html的描述。
以下显示了RSS订阅源描述的示例。
Jeg blev i maj inviteret til at holde et oplæg som keynote speaker på en konference i Alaska i HETL-regi (The International Higher Education Teaching and Learning Association). Patrick Blessinger, stifteren af HETL, har netop medvirket i et amerikansk online radio … <a href="http://aesbrock.wordpress.com/2013/07/12/niels-brock-naevnt-i-amerikansk-radio-interview/">Læs resten <span class="meta-nav">→</span></a><img alt="" border="0" src="http://stats.wordpress.com/b.gif?host=aesbrock.wordpress.com&blog=978571&post=4538&subd=aesbrock&ref=&feed=1" width="1" height="1" />
我希望它只是在没有html的情况下显示为文本。
我尝试使用以下正则表达式
Regex.Replace(item.Description, @"<(.|\n)*?>", string.Empty);
但这不太正确;
我看到了关于使用HTMLAgilityPack
的建议,但我想避免使用外部库。
非常感谢任何建议。
答案 0 :(得分:0)
感谢Pete的建议,但它仍然留下了一些HTML。我最终这样做了。
HttpUtility.HtmlDecode(Regex.Replace(item.Description, @"<!--[\S\s]*?-->|<(?:"".*?""|'.*?'|[\S\s])*?>", ""));
它来自一个帖子(在webz上的某个地方),但我没有给它添加书签,所以如果有人认出它 - 谢谢:)我希望它可以帮助别人。