应用错误收集

如何开始学习开发一个http抓取工具

时间：2012-01-27 14:52:19

标签： .net http web web-scraping

是否有一些很好的教程或示例来了解http网页抓取？如何开始开发一个可以搜索某些网站并下载特定信息的工具，这样我就可以自动收集它然后进行分析？谢谢！

1 个答案:

答案 0 :(得分：2)

通常建议使用的工具是Html Agility Pack。这将需要格式错误的HTML并按摩它到XHTML然后是一个可遍历的DOM，因此对于你在野外找到的代码非常有用，而不是像RegEx那样注定要破解的方法。

这里有一些示例和API文档：

http://html-agility-pack.net/api

一些有用的链接：