有很多网络蜘蛛,但他们只是抓住了html形式的互联网。我想要一个网络蜘蛛,一些抓住动态网页的方法或想法,并且可以执行javascript,我可以从dom树获取信息。
答案 0 :(得分:0)
您希望蜘蛛的行为越像真正的浏览器,您就越需要真正的浏览器;所以,我建议从像Crowbar这样的无头浏览器开始。从它的描述:
[Crowbar]的目的是允许针对DOM运行javascript scraper来自动化网站抓取,但避免所有语法规范化问题。
答案 1 :(得分:0)
如果您熟悉Java,可以尝试Http Unit http://httpunit.sourceforge.net/ HttpUnit非常直观且易于使用。它是为Web应用程序单元测试而制作的,但它可以是非常强大的Web爬行工具。它集成了JavaScript引擎。它还捆绑了许多有用的库。