我已经成功地从网站页面中删除了数据。但它既包含HTML标记,也包含纯文本。如何从这个已删除的数据中过滤掉不需要的数据(标签,脚本,一些不需要的文本等)。 Atleast提出了一些做法。
答案 0 :(得分:1)
您可以使用HTML Agility Pack来解析html并删除任何不需要的内容。
答案 1 :(得分:1)
您可以先看一下HTML Agility Pack。这应该允许您删除任何HTML。
这是一个灵活的HTML解析器,可构建读/写DOM并支持 普通的XPATH或XSLT(你实际上并不了解XPATH或者 XSLT使用它,不用担心......)。它是一个允许的.NET代码库 你要解析网络" HTML文件。解析器非常宽容 用"现实世界"格式错误的HTML。对象模型非常相似 什么提出System.Xml,但对于HTML文档(或流)。