如何找出我的网站正在刮?

时间:2015-07-09 11:58:43

标签: web web-scraping screen-scraping

如何查找我的网站?

我有一点......

  1. 网络带宽占用,导致吞吐量问题(如果使用代理,则匹配)。
  2. 当在搜索引擎中搜索关键词时,新引用会出现在具有相同内容的其他类似资源中(如果使用了代理,则匹配)。
  3. 从同一IP请求多次。
  4. 来自单个IP的高请求率。 (顺便说一句:什么是正常费率?)
  5. 无头或奇怪的用户代理(如果使用代理,则匹配)。
  6. 从同一IP请求可预测(相等)的时间间隔。
  7. 从不请求某些支持文件,例如。 favicon.ico,各种CSS和javascript文件(如果使用代理,则匹配)。
  8. 客户的请求顺序。防爆。客户端访问不是可直接访问的页面(如果使用代理,则匹配)。
  9. 您会在此列表中添加更多内容吗?

    如果刮刀使用代理,可能适合/匹配哪些点?

2 个答案:

答案 0 :(得分:2)

作为第一个注释;考虑是否值得为未来的机器人提供API。如果您被其他公司/等人抓取,如果它是您想要提供给他们的信息,那么它会使您的网站对他们有价值。创建API可以大大减少您的服务器负载,并让您100%清晰地抓取您的人。

其次,来自个人经验(我创建了网络爬行很长一段时间),通常您可以通过跟踪访问您网站的浏览器来立即判断。如果他们使用其中一种自动化语言或一种开发语言,它将与普通用户有所不同。更不用说跟踪日志文件并更新.htaccess并禁止它们(如果那是你想要做的事情)。

它通常是其他相当容易发现的。重复,非常一致地打开页面。

查看此其他帖子,了解有关如何处理这些内容的更多信息,以及有关如何识别它们的一些想法。

How to block bad unidentified bots crawling my website?

答案 1 :(得分:1)

我还会添加对同一人的请求何时进行分析。例如,如果相同的IP地址每天在同一时间请求相同的数据,则该过程可能是自动调度的。因此可能会刮刮......

可能添加对每个用户会话影响的页数的分析。例如,如果特定日期的特定用户浏览了您网站中的每个网页,并且您认为这种情况不同,那么可能是其他指标。

感觉你需要一系列指标,需要对它们进行评分,然后将得分结合起来,以显示最有可能抓到的人。