我在搜索时找不到任何具体内容,但是在查看我的zend服务器上的错误日志时,看起来网络爬虫正在修改各种服务器变量,看起来似乎是不准确的。它似乎在我的域下创建了一个子域,但这个子域实际上并不存在。
如果实际域名是www.mydomain.com,我会得到以下值:
'SERVER_NAME' => 'www.arbitraryValue.mydomain.com'
'HTTP_HOST' => 'www.arbitraryValue.mydomain.com'
'SCRIPT_URI' => 'http://www.arbitraryValue.mydomain.com/segment1/segment2/segment3/page.php'
对于所有这些实例,我注意到HTTP_USER_AGENT
将这些报告为网络抓取工具。我从包括Google在内的各种网络抓取工具中获得了这些事件,而不只是一个。
这是网络抓取工具的典型行为吗?或者我应该关注潜在的服务器变量/用户代理欺骗?
就欺骗而言,我发现这个问题很有用,但如果这是网络爬虫的典型行为,那么我就不必去那个兔子洞了。