应用错误收集

有没有办法用NCrawler提取特定的html标签信息

时间：2014-11-29 18:58:19

标签： c# .net web-crawler

规格：Win7 64，VS 2010，.NET 4.0，NCrawler库
我正在编写一个可以从在线商店中提取一些数据的爬虫。应用程序可以很好地提取URL，我可以正确地导航到商店中的每个项目。问题是保留产品的所有页面数据的每个“propretyBag”对象都是文本形式，我想知道是否有办法读取特定标签的内容，如＆lt; -description＆gt; Text＆lt; - / descriptopn＆GT;从这个“propertyBag”或另一种方式来做到这一点。 THx的

1 个答案:

答案 0 :(得分：0)

您需要像HtmlAgilityPack（http://htmlagilitypack.codeplex.com/）这样的HTML解析器来提取所需的信息。

但我建议使用Abot（https://code.google.com/p/abot/）作为网络抓取工具。它是一个用C＃编写的一个活跃开发的免费开源Web爬虫。 Abot内置了HTML解析器，如HtmlAgilityPack（通过XPath提取元素）和CsQuery（通过CSS选择器提取元素）。