网刮刀和收割机

时间:2011-12-08 14:32:11

标签: web-scraping

Web scraper或harvester是从网站获取数据的软件, 如果有人能提出市场上可用的各种软件包,我将非常感激 他们必须能够动态收集(如AJAX)构建的网站。

1 个答案:

答案 0 :(得分:1)

网络吸盘通常会关注页面上的硬链接(href s)以获取下一页。 使用ajax,这是完全不同的。内容仅在需要时发送给客户端。因为我不知道任何网络刮板有一个非常有效的方法来指定参数我会做我自己的工具。这基本上包括伪造我自己的请求者并在服务器的webservice上使用它(插件)。 您可以使用不同的语言执行此操作,只要该语言支持http get / post请求。

调查伪造请求的方式:

  1. 安装webkit浏览器(出于某些安全策略原因,我建议使用Safari)
  2. 转到与您感兴趣的网络服务沟通的公共页面
  3. 定期提出要求
  4. 使用Safari的Web inspector,查看执行请求时网络标签中发生的情况。
  5. 在标题中,您将了解请求URL(servicePath)以及使用的方法。如果它是一个GET,那么它很简单:你只需要改变url中的参数来伪造你的。如果是POST,您可以更深入地查看发送的数据,然后发送一些类似的数据。
  6. 您可以使用javascript在服务器上测试发布。这是我的处理方式:在网站上jQuerify页面允许java控制台调用jQuery方法。您可以添加书签jQuerify
  7. 在Web Inspector控制台中(键入esc使其显示为隐藏)尝试以下方式伪造帖子(这里是jSon帖子):
  8. $.post("servicePath.php", {"your": "forgedRequest"},function(data){alert(data)})