如何查找我的网站?
我有一点......
您会在此列表中添加更多内容吗?
如果刮刀使用代理,可能适合/匹配哪些点?
答案 0 :(得分:2)
作为第一个注释;考虑是否值得为未来的机器人提供API。如果您被其他公司/等人抓取,如果它是您想要提供给他们的信息,那么它会使您的网站对他们有价值。创建API可以大大减少您的服务器负载,并让您100%清晰地抓取您的人。
其次,来自个人经验(我创建了网络爬行很长一段时间),通常您可以通过跟踪访问您网站的浏览器来立即判断。如果他们使用其中一种自动化语言或一种开发语言,它将与普通用户有所不同。更不用说跟踪日志文件并更新.htaccess并禁止它们(如果那是你想要做的事情)。
它通常是其他相当容易发现的。重复,非常一致地打开页面。
查看此其他帖子,了解有关如何处理这些内容的更多信息,以及有关如何识别它们的一些想法。
答案 1 :(得分:1)
我还会添加对同一人的请求何时进行分析。例如,如果相同的IP地址每天在同一时间请求相同的数据,则该过程可能是自动调度的。因此可能会刮刮......
可能添加对每个用户会话影响的页数的分析。例如,如果特定日期的特定用户浏览了您网站中的每个网页,并且您认为这种情况不同,那么可能是其他指标。
感觉你需要一系列指标,需要对它们进行评分,然后将得分结合起来,以显示最有可能抓到的人。