网络抓取工具,支持在开始抓取之前与目标网站进行交互

时间:2011-06-28 13:15:58

标签: web-crawler nutch

我正在寻找能够使用Ajax处理页面并且能够在开始抓取网站之前执行与目标站点的某些用户交互的爬虫(例如,点击某些菜单项,填写某些表单等)。 ..)。我尝试过webdriver / selenium(它们实际上是网络抓取工具),现在我想知道是否有任何爬虫可用,支持在开始抓取之前模拟某些用户交互? (在Java或Python或Ruby中......)

由于

ps - 可以这样做吗?如果是,我感谢任何描述这一点的链接。

2 个答案:

答案 0 :(得分:1)

Nutch不会处理您所描述的AJAX,Cookie或任何用户互动。

答案 1 :(得分:0)

您可以尝试将selenium连接到基于python的爬虫,例如scrapy。每当需要处理AJAX时,它都会启动外部过程以便用硒进行刮擦。