如何从C#中的大型html字符串中删除所有<a></a>标签?

时间:2010-12-10 00:27:45

标签: c# asp.net html parsing

我有一大串HTML,我已经解析了一堆已经形成的链接。我正在寻找一种快速方法来摆脱所有链接,只显示文本。任何帮助或建议表示赞赏!

示例html字符串如下所示:

<A href="test.com">myText</A>, <A href="test1.com">myText</A>, <A href="test2.com">myText</A>, <A href="differenttesturl.com">myText</A>, <A href="test0.com">myText</A>

我希望HTML在完成后看起来像这样:

myText,myText,myText,myText,myText

我在ASP.NET页面上使用C#并将HTML存储为STRING,

感谢。

3 个答案:

答案 0 :(得分:4)

这是一个使用正则表达式从字符串中剥离HTML标记的简单解决方案。

http://www.osherove.com/blog/2003/5/13/strip-html-tags-from-a-string-using-regular-expressions.html

答案 1 :(得分:1)

您可以将其转换为XML文档并提取所有Text节点。

答案 2 :(得分:1)

您希望使用HTML解析器来执行此操作。

有关选项,请参阅此帖子

Looking for C# HTML parser