如何解析HTML或将HTML转换为XML,以便从网站中提取信息(在C#中)

时间:2012-07-03 04:20:01

标签: c# html xml

  

可能重复:
  What is the best way to parse html in C#?

有没有办法解析HTML或将HTML转换为XML,以便我轻松地从网站中提取信息?

我正在使用C#。

谢谢,

2 个答案:

答案 0 :(得分:6)

您可以使用Microsoft HTML Object Library中的COM对象加载HTML,然后使用它的对象模型进行导航。示例如下所示:

string html;
WebClient webClient = new WebClient();
using (Stream stream = webClient.OpenRead(new Uri("http://www.google.com")))
using (StreamReader reader = new StreamReader(stream))
{
  html = reader.ReadToEnd();
}
IHTMLDocument2 doc = (IHTMLDocument2)new HTMLDocument();
doc.write(html);
foreach (IHTMLElement el in doc.all)
  Console.WriteLine(el.tagName);

答案 1 :(得分:5)

HTMLAgilityPack正是您要找的。查看本教程Parsing HTML Document with HTMLAgilityPack