应用错误收集

以下是一些：

以onclicks或无限滚动的形式通过AJAX加载的内容
- pinterest
- comments in such a page
  这是一个中国商品页面，其注释由AJAX加载，通过在浏览器中向下滚动滚动条或根据浏览器的高度触发。我必须使用PhantomJS和xvfb来触发这样的动作。
防刮措施（但不能通过robots.txt禁止抓取）
- amazon next page
  我已经抓取了中国的亚马逊网站，当我想抓取此类网页中的下一个页面时，它可能修改请求导致您无法获得真正的下一页页面
- stackoverflow
  它具有访问频率的限制。几天前，我想在stackoverflow中获取所有标签，并将蜘蛛的访问频率设置为10，但我被stackoverflow警告......这是screen shot。之后，我必须使用代理来爬行stackoverflow。
以及其他任何通常会使抓取网站成为头疼的事情
- yihaodian
  这是一个中国电子商务网站，当您在浏览器中访问它时，它将显示您的位置，并将根据您的位置提供一些商品。
- 等。
  有很多像上面这样的网站会根据你的位置提供不同的内容。当您抓取此类网站时，您获得的内容与您在浏览器中看到的内容不同。它通常需要在通过蜘蛛发出请求时设置cookie。

去年我遇到了一个网站，在发出请求时需要 http请求标题和一些Cookie ，但我不记得该网站....