我有一个项目可以接受输入,例如(html,sgml,xml和txt)。
我解析XML文件和txt文件没问题,你能不能建议一些我可以用来解析html或sgml文件的工具。
答案 0 :(得分:1)
对于 HTMl Parser ,请使用HTML Agilty Pack - 它是.NET的开源HTML解析器。
什么是Html Agility Pack(HAP)?
这是一个灵活的HTML解析器,可构建读/写DOM并支持 普通的XPATH或XSLT(你实际上并不需要理解XPATH或者 使用XSLT,不用担心......)。它是一个允许的.NET代码库 你解析“out of the web”HTML文件。解析器非常宽容 与“真实世界”格式错误的HTML。对象模型非常相似 什么提出System.Xml,但对于HTML文档(或流)。
您可以使用它来查询HTML并提取您想要的任何数据。
SGML Parser
查看此链接,SGMLReader - 将任何HTML转换为有效的XML:
答案 1 :(得分:1)
对于解析HTML我不能推荐除http://htmlagilitypack.codeplex.com/以外的任何其他内容,因为SGML基本相同,但是对于其他元素你也可以使用它。