如何开始学习开发一个http抓取工具

时间:2012-01-27 14:52:19

标签: .net http web web-scraping

是否有一些很好的教程或示例来了解http网页抓取?如何开始开发一个可以搜索某些网站并下载特定信息的工具,这样我就可以自动收集它然后进行分析?谢谢!

1 个答案:

答案 0 :(得分:2)

通常建议使用的工具是Html Agility Pack。这将需要格式错误的HTML并按摩它到XHTML然后是一个可遍历的DOM,因此对于你在野外找到的代码非常有用,而不是像RegEx那样注定要破解的方法。

这里有一些示例和API文档:

http://html-agility-pack.net/api

一些有用的链接: