应用错误收集

时间：2015-07-09 11:58:43

标签： web web-scraping screen-scraping

如何查找我的网站？

我有一点......

您会在此列表中添加更多内容吗？

如果刮刀使用代理，可能适合/匹配哪些点？

答案 0 :(得分：2)

作为第一个注释;考虑是否值得为未来的机器人提供API。如果您被其他公司/等人抓取，如果它是您想要提供给他们的信息，那么它会使您的网站对他们有价值。创建API可以大大减少您的服务器负载，并让您100％清晰地抓取您的人。

其次，来自个人经验（我创建了网络爬行很长一段时间），通常您可以通过跟踪访问您网站的浏览器来立即判断。如果他们使用其中一种自动化语言或一种开发语言，它将与普通用户有所不同。更不用说跟踪日志文件并更新.htaccess并禁止它们（如果那是你想要做的事情）。

它通常是其他相当容易发现的。重复，非常一致地打开页面。

查看此其他帖子，了解有关如何处理这些内容的更多信息，以及有关如何识别它们的一些想法。

答案 1 :(得分：1)

我还会添加对同一人的请求何时进行分析。例如，如果相同的IP地址每天在同一时间请求相同的数据，则该过程可能是自动调度的。因此可能会刮刮......

可能添加对每个用户会话影响的页数的分析。例如，如果特定日期的特定用户浏览了您网站中的每个网页，并且您认为这种情况不同，那么可能是其他指标。

感觉你需要一系列指标，需要对它们进行评分，然后将得分结合起来，以显示最有可能抓到的人。