有没有办法用NCrawler提取特定的html标签信息

时间:2014-11-29 18:58:19

标签: c# .net web-crawler


规格:Win7 64,VS 2010,.NET 4.0,NCrawler库
我正在编写一个可以从在线商店中提取一些数据的爬虫。应用程序可以很好地提取URL,我可以正确地导航到商店中的每个项目。问题是保留产品的所有页面数据的每个“propretyBag”对象都是文本形式,我想知道是否有办法读取特定标签的内容,如< -description> Text< - / descriptopn>从这个“propertyBag”或另一种方式来做到这一点。 THx的

1 个答案:

答案 0 :(得分:0)

您需要像HtmlAgilityPack(http://htmlagilitypack.codeplex.com/)这样的HTML解析器来提取所需的信息。

但我建议使用Abot(https://code.google.com/p/abot/)作为网络抓取工具。它是一个用C#编写的一个活跃开发的免费开源Web爬虫。 Abot内置了HTML解析器,如HtmlAgilityPack(通过XPath提取元素)和CsQuery(通过CSS选择器提取元素)。