是否有一些很好的教程或示例来了解http网页抓取?如何开始开发一个可以搜索某些网站并下载特定信息的工具,这样我就可以自动收集它然后进行分析?谢谢!
答案 0 :(得分:2)
通常建议使用的工具是Html Agility Pack。这将需要格式错误的HTML并按摩它到XHTML然后是一个可遍历的DOM,因此对于你在野外找到的代码非常有用,而不是像RegEx那样注定要破解的方法。
这里有一些示例和API文档:
http://html-agility-pack.net/api
一些有用的链接: