应用错误收集

使用c＃过滤已删除的数据

时间：2012-07-04 05:48:00

标签： c# asp.net

我已经成功地从网站页面中删除了数据。但它既包含HTML标记，也包含纯文本。如何从这个已删除的数据中过滤掉不需要的数据（标签，脚本，一些不需要的文本等）。 Atleast提出了一些做法。

2 个答案:

答案 0 :(得分：1)

您可以使用HTML Agility Pack来解析html并删除任何不需要的内容。

How to use HTML Agility Pack

答案 1 :(得分：1)

您可以先看一下HTML Agility Pack。这应该允许您删除任何HTML。

这是一个灵活的HTML解析器，可构建读/写DOM并支持普通的XPATH或XSLT（你实际上并不了解XPATH或者 XSLT使用它，不用担心......）。它是一个允许的.NET代码库你要解析网络＆＃34; HTML文件。解析器非常宽容用＆＃34;现实世界＆＃34;格式错误的HTML。对象模型非常相似什么提出System.Xml，但对于HTML文档（或流）。