内置的解析任何原始HTML的方法

时间:2012-02-04 17:41:51

标签: c# .net html .net-2.0 html-parsing

我开始编写一个应该从任何指定的HTML页面检索元标记内容的应用程序。因为我为此目的使用.NET 2.0,所以我不能使用LINQ to XML或现代的东西。所以,我尝试使用XmlDocument类。不幸的是,它无法使用大多数HTML的无效XML文档。

我甚至不能使用HtmlAgilityPack,因为我正在编写我计划将来销售的应用程序,因此它可能不适合商业需求。

使用XmlReader似乎太难了。

那么,你们如何处理这个问题呢?


POST EDIT

我最好避免使用HtmlAgilityPack的另一个原因是,添加到我的项目是如此巨大的lib。我会更乐意保持项目尽可能小。

你们真的建议我以任何方式使用HtmlAgilityPack吗?

2 个答案:

答案 0 :(得分:5)

  

我甚至无法使用HtmlAgilityPack,因为我正在编写我计划的应用程序   将来出售,所以它可能不适合商业需求。

HtmlAgilityPack正在使用Microsoft公共许可证(Ms-PL),它允许您在商业产品中使用它,它非常自由 - 也可以看到"How does MS-PL license work?"Microsoft Public License (Ms-PL) < / p>

答案 1 :(得分:0)

HtmlDocument doc = new System.Windows.Forms.WebBrowser().Document.OpenNew(true);
doc.Write("<HTML><BODY>This is a new HTML document.</BODY></HTML>");

请参阅MSDN

请注意,这是一个WebForms控件,您可能会遇到从WebForms应用程序运行它的不同问题。