机器人在apache访问日志中抛出500错误

时间:2013-01-16 14:22:25

标签: apache .htaccess bots robots.txt

在我的Apache错误日志中,我可以看到每天都有大量的错误。

[Tue Jan 15 13:37:39 2013] [error] [client 66.249.78.53] Request exceeded the limit of 10 internal redirects due to probable configuration error. Use 'LimitInternalRecursion' to increase the limit if necessary. Use 'LogLevel debug' to get a backtrace.

当我通过访问日志查看corroesponding IP,日期和时间时,我可以看到以下内容

66.249.78.53 - - [15/Jan/2013:13:37:39 +0000] "GET /robots.txt HTTP/1.1" 500 821 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

我在Google Webmster工具中测试了我的robot.txt文件 - >健康 - >阻止的网址,没关系。

当机器人访问某些图像时,它会抛出以下错误,

error_log中

[Tue Jan 15 12:14:16 2013] [error] [client 66.249.78.15] Request exceeded the limit of 10 internal redirects due to probable configuration error. Use 'LimitInternalRecursion' to increase the limit if necessary. Use 'LogLevel debug' to get a backtrace.

Accessed_URL

66.249.78.15 - - [15/Jan/2013:12:14:16 +0000] "GET /userfiles_generic_imagebank/1335441506.jpg?1 HTTP/1.1" 500 821 "-" "Googlebot-Image/1.0"

实际上我们的网站上没有上面的图片网址(以及访问日志中的其他几张图片)(我们在2012年8月进行的网站改版之前就可以使用了这些图片),当我们去那些网站时,我们会抛出404错误资源无效。

然而,偶尔,机器人(甚至是人类访客)似乎在我们的访问/错误日志中生成此类错误,仅针对不存在的图像等静态资源以及我们的robots.txt文件。服务器为它们抛出500错误,但实际上当我从浏览器中尝试它时 - 图像是404而robots.txt是200(成功)。

我们不确定为什么会发生这种情况,并且如果有效的robot.txt和inavalid图像会产生500错误。我们确实有一个.htaccess文件,我们确信我们的(Zend框架)应用程序没有被访问,因为我们有一个单独的日志。因此,服务器本身(或.htaccess)“偶尔”抛出500错误,我无法想象为什么。可能是由于对服务器的请求太多,或者我如何进一步调试呢?

请注意,我们在设计改造后才注意到这些错误,但Web服务器本身保持不变

1 个答案:

答案 0 :(得分:1)

记录客户端正在访问的域可能很有用。您的服务器可以通过多个域访问,包括原始IP地址。当您进行测试时,您通过主域进行测试,一切都按预期工作。如果您尝试通过IP(http://1.2.3.4/robots.txt)与域(http://example.com/robots.txt)访问相同的文件,该怎么办?还有example.com与www.example.com或指向服务器的任何其他变体。

Bots有时可以在地址发生变化后很长时间内保留IP /域信息,并且可能正在尝试访问几个月前规则已更改的内容。