我们是位于华盛顿州西雅图的天然食品杂货连锁店。我们的商店位置页面是我们网站上浏览次数最多的页面,包括用作商店定位器的locations index page,您可以在其中输入邮政编码以查找最近的商店。
从2015年2月3日星期二的统计数据开始,我开始看到可疑行为在2月6日星期五达到顶峰,并且今天仍在继续,似乎只会影响我们“www”的商店定位页面。主机名(与我们的“m。”主机名相对)。具体来说,我观察到异常多的观点,其中源是“(直接)”。对于绝大多数这些直接视图,许多标准维度(例如浏览器,操作系统,区域等)具有值“(未设置)”。到目前为止,已有近2,800个页面视图符合此标准,其中大约260个是唯一的(也很奇怪)。
当我查看Apache访问日志时,我发现对于有问题的页面没有足够的请求 - 即使我包含了用户代理被识别为Googlebot,bingbot或Yahoo!的请求。思乐普
到目前为止,这些异常都涉及没有任何查询参数的页面。然而,正如我正在审查的那样,我发现了另一个谜也开始于2月3日。有很多请求将邮政编码查询参数设置为我们市场区域之外的邮政编码。同样,标准尺寸记录为“(未设置)”。这次当我查看服务器日志时,我确实发现了相同数量的请求,但非常令人惊讶的是大多数都是来自Googlebot!我的第一个想法是有人欺骗Googlebot,但是通过遵循Google记录的验证步骤,这些似乎是合法的。
例如,在2月6日,服务器日志中有两个请求“/locations/index.php?zip=66758&radius=5”(这是Neosho Falls,KS的拉链)。两者的用户代理都记录为“Mozilla / 5.0(兼容; Googlebot / 2.1; + http://www.google.com/bot.html)”。一项请求来自66.249.67.61,另一项来自66.249.67.77。
host 66.249.67.77
77.67.249.66.in-addr.arpa domain name pointer crawl-66-249-67-77.googlebot.com.
host crawl-66-249-67-77.googlebot.com
crawl-66-249-67-77.googlebot.com has address 66.249.67.77
host 66.249.67.61
61.67.249.66.in-addr.arpa domain name pointer crawl-66-249-67-61.googlebot.com.
host crawl-66-249-67-61.googlebot.com
crawl-66-249-67-61.googlebot.com has address 66.249.67.61
在Google Analytics中,同时报告了2个页面的视图(1个唯一)。
同样奇怪的是,所有这些基于邮政编码的请求都报告了“入口”数量为零。后来我发现这些基于邮政编码的请求通常是上述可疑页面查看的登录页面,没有查询参数。
2月6日,Google Analytics中只有472个这样的邮政编码请求,但服务器已经记录了近2,000个Googlebot作为用户代理。似乎机器人正在运行一长串邮政编码。
我一直在想自己有一些显而易见的事情,因为Googlebot活动应该从Google Analytics报告中排除。我已posted访问Google Analytics产品论坛,但尚无回复。
我还应该补充一点,我们使用的是经典版本的跟踪代码,最近没有编辑过。