网站特别难以爬行和刮擦?

时间:2013-09-12 10:55:32

标签: web-scraping screen-scraping web-crawler

我对面向公众的网站(登录/身份验证背后的任何内容)感兴趣,其中包括以下内容:

  • 高度使用内部301和302重定向
  • 防刮措施(但不通过robots.txt禁止抓取)
  • 非语义或无效标记
  • 以onclicks或无限滚动的形式通过AJAX加载的内容
  • 网址中使用了大量参数
  • 典型问题
  • 复杂的内部链接结构
  • 以及其他任何通常会使抓取网站的事情变得令人头疼!

我已经构建了一个爬虫/蜘蛛,它可以在网站上进行一系列分析,而且我正在寻找会让它变得困难的网站。

1 个答案:

答案 0 :(得分:3)

以下是一些:

  • 以onclicks或无限滚动的形式通过AJAX加载的内容
    • pinterest
    • comments in such a page
      这是一个中国商品页面,其注释由AJAX加载,通过在浏览器中向下滚动滚动条或根据浏览器的高度触发。我必须使用PhantomJS和xvfb来触发这样的动作。
  • 防刮措施(但不能通过robots.txt禁止抓取)
    • amazon next page
      我已经抓取了中国的亚马逊网站,当我想抓取此类网页中的下一个页面时,它可能修改请求导致您无法获得真正的下一页页面
    • stackoverflow
      它具有访问频率的限制。几天前,我想在stackoverflow中获取所有标签,并将蜘蛛的访问频率设置为10,但我被stackoverflow警告......这是screen shot。之后,我必须使用代理来爬行stackoverflow。
  • 以及其他任何通常会使抓取网站成为头疼的事情
    • yihaodian
      这是一个中国电子商务网站,当您在浏览器中访问它时,它将显示您的位置,并将根据您的位置提供一些商品。
    • 等。
      有很多像上面这样的网站会根据你的位置提供不同的内容。当您抓取此类网站时,您获得的内容与您在浏览器中看到的内容不同。它通常需要在通过蜘蛛发出请求时设置cookie。

去年我遇到了一个网站,在发出请求时需要 http请求标题一些Cookie ,但我不记得该网站....