如何在C#中使用Linq使用htmlagilitypack解析网页?

时间:2014-05-19 14:15:00

标签: c# linq visual-studio parsing screen-scraping

我试图在网上找到解释如何解析网页的教程(维基百科正在研究),使用Linq ...使用System.Linq这样的东西:

var reviewBodyChildNodes = newsNode.ChildNodes
                                   .Single(x => x.Id == "review-body")
                                   .ChildNodes;

OR

newMovie.Title = div.Descendants()
                    .Where(i => 
                           i.Name == "h4" &&
                           i.GetAttributeValue("itemprop", "") == "name"
                    )
                    .FirstOrDefault()
                    .InnerText
                    .Trim();

但我发现的是XmlDocument,它使用xml数据作为示例和XmlElement ......它与上面的东西有什么不同?我在这里错过了什么?我想在此页面上找到一些解释:

http://www.codeproject.com/Articles/691119/Html-Agility-Pack-Massive-information-extraction-f

请帮助。

1 个答案:

答案 0 :(得分:0)

网页Scraper特定于您从中获取数据的网页。我想有人能够使用htmlagilitypack你必须很好地了解Linq和正则表达式。我可以建议一些资源来帮助你。为了学习Linq,我喜欢 LinqPad ,这是一个免费的工具,在C#Linq,Linq To XML,Regular Expressions中有很多例子。

链接:https://www.linqpad.net/