Nginx / Unicorn / Rails连接超时

时间:2015-01-29 14:16:30

标签: ruby-on-rails debugging nginx server unicorn

我正在使用Nginx / Unicorn运行Rails应用程序。 链接到我的nginx.confunicorn.rb

我正在通过capistrano进行部署,最初应用程序运行良好。但是,在没有请求的一段时间(即~10-20分钟)之后,传入的请求将遇到问题。 (返回错误500页出错了。)

Rails production.log显示它已收到请求,但我没有做任何其他事情:

I, [2015-01-29T13:12:03.725959 #24176]  INFO -- : Started GET "/" for xxx.18.170.101 at 2015-01-29 13:12:03 +0000

nginx的access.log

xxx.18.170.101 - - [29/Jan/2015:13:14:33 +0000] "GET / HTTP/1.1" 504 1477 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.91 Safari/537.36"

nginx'error.log

2015/01/29 13:14:33 [error] 23786#0: *20 upstream timed out (110: Connection timed out) while reading response header from upstream, client: xxx.18.170.101, server: , request: "GET / HTTP/1.1", upstream: "http://unix:/tmp/unicorn.my_app.sock/", host: "my_server"

unicorn的error.log显示它超时并杀死了工作者

D, [2015-01-29T13:01:45.386741 #22987] DEBUG -- : waiting 121.0s after suspend/hibernation
E, [2015-01-29T13:16:04.784404 #22987] ERROR -- : worker=0 PID:24176 timeout (241s > 240s), killing
E, [2015-01-29T13:16:04.794715 #22987] ERROR -- : reaped #<Process::Status: pid 24176 SIGKILL (signal 9)> worker=0
I, [2015-01-29T13:16:05.797775 #24377]  INFO -- : worker=0 spawned pid=24377
I, [2015-01-29T13:16:05.827508 #24377]  INFO -- : worker=0 ready

奇怪的是,在提出几个请求之后,它会再次起作用: 正常的production.log

I, [2015-01-29T13:34:39.054539 #24666]  INFO -- : Started GET "/" for xx.18.170.101 at 2015-01-29 13:34:39 +0000
I, [2015-01-29T13:34:39.122488 #24666]  INFO -- : Processing by ProductsController#index as HTML
....

然后如果暂时没有请求,错误将再次发生。

查看时间戳以及成功请求和错误请求的production.log之间的区别,我认为nginx,unicorn设置没有任何问题。但是,通常当一个请求进入rails应用程序时,它将被处理processing by ...Controller但是一段时间没有请求,下一个请求被卡在某处。

任何建议如何修复,或如何调试此问题? 我试过strace,但结果很难搞清楚。 最耗时的时间是:

[pid 12649] 06:34:02 select(8, [7], NULL, NULL, {44, 88867}) = 0 (Timeout) <44.105805>

1 个答案:

答案 0 :(得分:0)

我对这个答案并不是100%肯定,但我还不能留下评论。所以我无法确切地告诉你为什么你的请求花了这么长时间但重要的错误信息是你的独角兽工人被杀的地方。

来自你的unicorn.rb:timeout 240

来自你的unicorn_error.log:

ERROR -- : worker=0 PID:24176 timeout (241s > 240s), killing

因此请求的时间超过240秒。尝试增加你的unicorn超时,以便请求可以通过,然后查看你的日志文件了解这么长时间。你是对的独角兽不是问题,因为除非你正在做一些事情,而且用户希望花很长时间你不应该服用+ 240s。