构建自动Web爬网程序

时间:2009-08-11 11:25:20

标签: web-crawler

我正在构建一个Web应用程序爬虫,它不仅意味着要在Web应用程序中找到所有链接或页面,还要在应用程序中执行所有允许的操作(例如按下按钮,填写表单,注意DOM中的更改)即使他们没有触发请求等。)

基本上,这是一种“浏览器模拟器”。

我发现WebKit是实现我的抓取工具的一个很好的选择,因为它具有所有需要的技术(Javascript引擎,解析器,DOM操作等),但它似乎有点像是一个功能齐全的浏览器。

您知道有哪些工具包可以提供上述功能吗?

3 个答案:

答案 0 :(得分:2)

答案 1 :(得分:1)

我通过PyQt使用webkit解析JavaScript,然后Mechanize与之交互。

答案 2 :(得分:1)

如果您使用的是Mac,请尝试假应用

http://www.fakeapp.com