我试图在网上找到解释如何解析网页的教程(维基百科正在研究),使用Linq ...使用System.Linq这样的东西:
var reviewBodyChildNodes = newsNode.ChildNodes
.Single(x => x.Id == "review-body")
.ChildNodes;
OR
newMovie.Title = div.Descendants()
.Where(i =>
i.Name == "h4" &&
i.GetAttributeValue("itemprop", "") == "name"
)
.FirstOrDefault()
.InnerText
.Trim();
但我发现的是XmlDocument,它使用xml数据作为示例和XmlElement ......它与上面的东西有什么不同?我在这里错过了什么?我想在此页面上找到一些解释:
http://www.codeproject.com/Articles/691119/Html-Agility-Pack-Massive-information-extraction-f
请帮助。
答案 0 :(得分:0)
网页Scraper特定于您从中获取数据的网页。我想有人能够使用htmlagilitypack你必须很好地了解Linq和正则表达式。我可以建议一些资源来帮助你。为了学习Linq,我喜欢 LinqPad ,这是一个免费的工具,在C#Linq,Linq To XML,Regular Expressions中有很多例子。