Question

我开始编写一个应该从任何指定的HTML页面检索元标记内容的应用程序。因为我为此目的使用.NET 2.0，所以我不能使用LINQ to XML或现代的东西。所以，我尝试使用XmlDocument类。不幸的是，它无法使用大多数HTML的无效XML文档。

我甚至不能使用HtmlAgilityPack，因为我正在编写我计划将来销售的应用程序，因此它可能不适合商业需求。

使用XmlReader似乎太难了。

那么，你们如何处理这个问题呢？

POST EDIT

我最好避免使用HtmlAgilityPack的另一个原因是，添加到我的项目是如此巨大的lib。我会更乐意保持项目尽可能小。

你们真的建议我以任何方式使用HtmlAgilityPack吗？

Answer 1

我甚至无法使用HtmlAgilityPack，因为我正在编写我计划的应用程序将来出售，所以它可能不适合商业需求。

HtmlAgilityPack正在使用Microsoft公共许可证（Ms-PL），它允许您在商业产品中使用它，它非常自由 - 也可以看到"How does MS-PL license work?"和Microsoft Public License (Ms-PL) < / p>

Answer 2

HtmlDocument doc = new System.Windows.Forms.WebBrowser().Document.OpenNew(true);
doc.Write("<HTML><BODY>This is a new HTML document.</BODY></HTML>");

请参阅MSDN。

请注意，这是一个WebForms控件，您可能会遇到从WebForms应用程序运行它的不同问题。