Question

我试图在网上找到解释如何解析网页的教程（维基百科正在研究），使用Linq ...使用System.Linq这样的东西：

var reviewBodyChildNodes = newsNode.ChildNodes
                                   .Single(x => x.Id == "review-body")
                                   .ChildNodes;

OR

newMovie.Title = div.Descendants()
                    .Where(i => 
                           i.Name == "h4" &&
                           i.GetAttributeValue("itemprop", "") == "name"
                    )
                    .FirstOrDefault()
                    .InnerText
                    .Trim();

但我发现的是XmlDocument，它使用xml数据作为示例和XmlElement ......它与上面的东西有什么不同？我在这里错过了什么？我想在此页面上找到一些解释：

http://www.codeproject.com/Articles/691119/Html-Agility-Pack-Massive-information-extraction-f

请帮助。

Answer 1

网页Scraper特定于您从中获取数据的网页。我想有人能够使用htmlagilitypack你必须很好地了解Linq和正则表达式。我可以建议一些资源来帮助你。为了学习Linq，我喜欢 LinqPad ，这是一个免费的工具，在C＃Linq，Linq To XML，Regular Expressions中有很多例子。

链接：https://www.linqpad.net/

如何在C＃中使用Linq使用htmlagilitypack解析网页？

1 个答案: