Question

我们部署了一个Express Web API，它在通过NGINX代理的EC2 ubuntu服务器上运行时获得了相当少的流量（平均每秒约10个请求）。每隔一段时间，一个请求就会挂起，如果客户端等待的时间足够长，则会将包含以下内容的行输出到NGINX错误日志中：

upstream timed out (110: Connection timed out) while connecting to upstream

我已经尝试了建议的解决方案here，但似乎没有效果。这只发生在我们每分钟1-3次的知识上，但我只是从这些日志中消失。如果客户端在请求超时之前刷新其页面或导航，则似乎没有记录。

错误消息显然表明连接到上游服务器有什么问题，但为什么这种情况很少发生？导致此问题的URL中绝对没有模式，并且我所知道的代理应用程序仍然可用。这是我们NGINX配置的一个想法：

user www-data;
worker_processes 4;
pid /run/nginx.pid;
events {
worker_connections 10000;
}
worker_rlimit_nofile 25000;

http {
sendfile on;
tcp_nopush on;
tcp_nodelay on;
keepalive_timeout 65;
types_hash_max_size 2048;
client_max_body_size 15M;
include /etc/nginx/mime.types;
include /etc/nginx/conf.d/ *.conf; //Added space before star because so formatting was turning it into a comment


include /etc/nginx/sites-enabled/ *;
default_type application/octet-stream;

log_format nginx_json '{ "timestamp": "$time_local", '
                      ' "request_ip": "$remote_addr", '
                      ' "request_user": "$remote_user", '
                      ' "request_bytes_sent": "$bytes_sent", '
                      ' "response_status": "$status", '
                      ' "request": "$request", '
                      ' "request_method": "$request_method", '
                      ' "http_referrer": "$http_referer", '
                      ' "http_user_agent": "$http_user_agent", '
                      ' "request_id": "$request_id", '
                      ' "server_name": "$server_name",'
                      ' "response_time": "$upstream_response_time" }';

access_log /var/log/nginx/access.log nginx_json;
error_log /var/log/nginx/error.log;

gzip on;
gzip_disable "msie6";
ssl_prefer_server_ciphers on;
ssl_session_cache shared:SSL:10m;
ssl_ciphers "EECDH+AESGCM:EDH+AESGCM:ECDHE-RSA-AES128-GCM-SHA256:AES256+EECDH:DHE-RSA-AES128-GCM-SHA256:AES256+EDH:ECDHE-RSA-AES256-GCM-SHA384:DHE-RSA-AES256-GCM-SHA384:ECDHE-RSA-AES256-SHA384:ECDHE-RSA-AES128-SHA256:ECDHE-RSA-AES256-SHA:ECDHE-RSA-AES128-SHA:DHE-RSA-AES256-SHA256:DHE-RSA-AES128-SHA256:DHE-RSA-AES256-SHA:DHE-RSA-AES128-SHA:ECDHE-RSA-DES-CBC3-SHA:EDH-RSA-DES-CBC3-SHA:AES256-GCM-SHA384:AES128-GCM-SHA256:AES256-SHA256:AES128-SHA256:AES256-SHA:AES128-SHA:DES-CBC3-SHA:HIGH:!aNULL:!eNULL:!EXPORT:!DES:!MD5:!PSK:!RC4";
ssl_protocols TLSv1 TLSv1.1 TLSv1.2;
ssl_dhparam /etc/ssl/certs/dhparam.pem;

resolver 127.0.0.1 valid=30s;

server {
 listen 80;
 server_name a.mysite.com;
 return 301 https://$server_name$request_uri;
}

 server {
     listen 443 ssl;
     server_name a.mysite.com;
     add_header Strict-Transport-Security "max-age=31536000";
     add_header Cache-Control no-cache;
     location /api {
         proxy_pass http://1.2.3.4:3001;
         proxy_set_header Host $host;
         proxy_set_header X-Request-Id $request_id;
         proxy_set_header Connection "";
         proxy_http_version 1.1;
     }
     location /ui2 {
         set $uiHost https://abc.cloudfront.net/ui2/index.html?v=1503438694163;
         proxy_pass $uiHost;
     }
     location / {
         set $uiHost https://abc.cloudfront.net/ui/index.html?v=1504012942606;
         proxy_pass $uiHost;
     }
     ssl_certificate /path/to/certificate;
     ssl_certificate_key /path/to/certificate/key;
 }

对于多个子域，重复此底部的服务器块，/api路径通常指向不同端口上的同一服务器。一个子域获得大量流量。上游服务器（示例中为1.2.3.4）配置了EC2安全组，仅允许从NGINX服务器进行访问。显然，错误消息表明运行Express应用程序的上游服务器可能出现问题，但我们的日志中没有任何内容表明这种情况正在发生。

最后要注意几点：

我最近将worker_connections从768增加到10000，这似乎使问题的发生频率略低。但是，我们从未达到接近连接限制的任何地方，并且连接正在关闭。
在此次增加之后，每次在NGINX上完成reload时，我们都不会在大约10分钟内收到任何这些错误。这是我认为NGINX是罪魁祸首的主要原因，但我不是专家。
我确实在某个地方看到了以前的帖子，当谷歌搜索proxy_set_header Host $host;声明可能导致这种情况时，这对我来说没有多大意义，但需要考虑一些事情。我没有测试删除它。
带有快递应用程序的API服务器似乎总是正常运行，并且该服务器没有我们所知道的负载
云端代理

对于进一步调查的内容，任何人都有任何明显或想法吗？可以在这里使用一些帮助，因为我们很遗憾。

更新我按照建议在日志中添加了一些额外的变量，并且能够将错误绑定到访问日志。以下是相关变量：

{

    "offset": 64270628,
    "response_status": "504",
    "upstream_header_time": "60.001",
    "input_type": "log",
    "source": "/var/log/nginx/access.log",
    "request_method": "GET",
    "http_user_agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko",
    "@timestamp": "2017-08-30T15:29:15.981Z",
    "upstream_connect_time": "60.001",
    "request_user": "-",
    "response_time": "60.001",
    "request_bytes_sent": "345",
    "request_id": "90a41e2224cc4b2c1d3c23d544b9146c",
    "timestamp": "30/Aug/2017:15:29:15 +0000"
  }

Answer 1

在我的情况下，我遇到了完全相同的问题，并且在私有子网和与之关联的NAT网关中使用了NGINX反向代理。

问题是分配给NGINX实例的可用连接数（在NAT网关上设置）不够，并且无法自动扩展。

这不是NGINX的问题，也不是NGINX背后的后端API。

对于GCP，可以在CloudNAT控制台上修改此设置。有关详细信息，请参阅this answer。

代理节点/ Express上行代码时偶发的NGINX错误/超时（上游连接上游时超时）

1 个答案: