重试风暴导致 PM2主进程过载事件

终端上报功能由于模块bug以及不规范变更,导致大量用户接口重试请求,未达到事故级别,未影响核心功能,但造成一定的现网压力。

故障原因:新版本服务存在设计缺陷
当请求量逐步增大时触发过载保护返回 503,但是IOS终端逻辑对503返回码会进行重试
导致服务已经过载情况下继续承受更高的重试请求量,从而更[……]

继续阅读