使用c#过滤已删除的数据

时间:2012-07-04 05:48:00

标签: c# asp.net

我已经成功地从网站页面中删除了数据。但它既包含HTML标记,也包含纯文本。如何从这个已删除的数据中过滤掉不需要的数据(标签,脚本,一些不需要的文本等)。 Atleast提出了一些做法。

2 个答案:

答案 0 :(得分:1)

您可以使用HTML Agility Pack来解析html并删除任何不需要的内容。

  

How to use HTML Agility Pack

答案 1 :(得分:1)

您可以先看一下HTML Agility Pack。这应该允许您删除任何HTML。

  

这是一个灵活的HTML解析器,可构建读/写DOM并支持   普通的XPATH或XSLT(你实际上并不了解XPATH或者   XSLT使用它,不用担心......)。它是一个允许的.NET代码库   你要解析网络" HTML文件。解析器非常宽容   用"现实世界"格式错误的HTML。对象模型非常相似   什么提出System.Xml,但对于HTML文档(或流)。