Web Crawlers似乎改变了我的HTTP_HOST值,这是典型的吗?

时间:2015-02-04 15:18:04

标签: php web-crawler zend-server spoofing

我在搜索时找不到任何具体内容,但是在查看我的zend服务器上的错误日志时,看起来网络爬虫正在修改各种服务器变量,看起来似乎是不准确的。它似乎在我的域下创建了一个子域,但这个子域实际上并不存在。

如果实际域名是www.mydomain.com,我会得到以下值:

'SERVER_NAME' => 'www.arbitraryValue.mydomain.com'
'HTTP_HOST' => 'www.arbitraryValue.mydomain.com'
'SCRIPT_URI' => 'http://www.arbitraryValue.mydomain.com/segment1/segment2/segment3/page.php'

对于所有这些实例,我注意到HTTP_USER_AGENT将这些报告为网络抓取工具。我从包括Google在内的各种网络抓取工具中获得了这些事件,而不只是一个。

这是网络抓取工具的典型行为吗?或者我应该关注潜在的服务器变量/用户代理欺骗?

就欺骗而言,我发现这个问题很有用,但如果这是网络爬虫的典型行为,那么我就不必去那个兔子洞了。

How to fake $_SERVER['REMOTE_ADDR'] variable?

0 个答案:

没有答案