昨天下午,经过一些营销努力,我们收到了全天高于平均水平(但绝不是危险的高)。
此流量持续了一段时间后,我们被警告我们的一个API(每个请求至少被点击一次的微服务)暂停了一段时间,然后返回503响应代码。
这些响应来自Load Balancer,因为它无法从两个(相同)实例中的任何一个获得响应。
然后我们查看了实例上的IIS,我们发现正在使用的线程数迅速增加,几乎与进入的请求数量(大约10 /秒)一致,没有任何请求获得响应
我们检查了错误日志(期望至少看到一些超时或其他错误),但没有任何内容可以引导我们找到正确的方向,因为根本没有记录相关错误。
关于整个社会的最奇怪的事情是,这个问题似乎无处不在(尽管流量增加),然后一切都在这几个小时之后再次开始工作。这可能意味着我们超过了一个阈值,导致IIS在线程中表现奇怪,或者只是巧合。
问题解决后,它在同一个实例上没有再次出现,但问题出现在另一个运行不同微服务的实例上一段时间了。
以前有人见过这样的图案吗?或类似的东西?