我正在构建一个Web应用程序爬虫,它不仅意味着要在Web应用程序中找到所有链接或页面,还要在应用程序中执行所有允许的操作(例如按下按钮,填写表单,注意DOM中的更改)即使他们没有触发请求等。)
基本上,这是一种“浏览器模拟器”。
我发现WebKit是实现我的抓取工具的一个很好的选择,因为它具有所有需要的技术(Javascript引擎,解析器,DOM操作等),但它似乎有点像是一个功能齐全的浏览器。
您知道有哪些工具包可以提供上述功能吗?
答案 0 :(得分:2)
答案 1 :(得分:1)
我通过PyQt使用webkit解析JavaScript,然后Mechanize与之交互。
答案 2 :(得分:1)
如果您使用的是Mac,请尝试假应用