解析HTML和SGML文件的建议

时间:2012-10-04 06:13:46

标签: c# .net html xml sgml

我有一个项目可以接受输入,例如(html,sgml,xml和txt)。

我解析XML文件和txt文件没问题,你能不能建议一些我可以用来解析html或sgml文件的工具。

2 个答案:

答案 0 :(得分:1)

对于 HTMl Parser ,请使用HTML Agilty Pack - 它是.NET的开源HTML解析器。

  

什么是Html Agility Pack(HAP)?

     

这是一个灵活的HTML解析器,可构建读/写DOM并支持   普通的XPATH或XSLT(你实际上并不需要理解XPATH或者   使用XSLT,不用担心......)。它是一个允许的.NET代码库   你解析“out of the web”HTML文件。解析器非常宽容   与“真实世界”格式错误的HTML。对象模型非常相似   什么提出System.Xml,但对于HTML文档(或流)。

您可以使用它来查询HTML并提取您想要的任何数据。

SGML Parser

查看此链接,SGMLReader - 将任何HTML转换为有效的XML:

http://developer.mindtouch.com/Community/SgmlReader

参考:SGML parser .NET recommendations

答案 1 :(得分:1)

对于解析HTML我不能推荐除http://htmlagilitypack.codeplex.com/以外的任何其他内容,因为SGML基本相同,但是对于其他元素你也可以使用它。