应用错误收集

捕捉动态网页的网络蜘蛛，一些方法或想法？

时间：2011-03-01 07:07:24

标签： javascript web-crawler

有很多网络蜘蛛，但他们只是抓住了html形式的互联网。我想要一个网络蜘蛛，一些抓住动态网页的方法或想法，并且可以执行javascript，我可以从dom树获取信息。

2 个答案:

答案 0 :(得分：0)

您希望蜘蛛的行为越像真正的浏览器，您就越需要真正的浏览器;所以，我建议从像Crowbar这样的无头浏览器开始。从它的描述：

[Crowbar]的目的是允许针对DOM运行javascript scraper来自动化网站抓取，但避免所有语法规范化问题。

答案 1 :(得分：0)

如果您熟悉Java，可以尝试Http Unit http://httpunit.sourceforge.net/ HttpUnit非常直观且易于使用。它是为Web应用程序单元测试而制作的，但它可以是非常强大的Web爬行工具。它集成了JavaScript引擎。它还捆绑了许多有用的库。