Untitled


问题


事件发生

最近一段时间开发、测试同学经常反馈测试环境接口超时不稳定,前期通常只持续了几秒左右断断续续接口超时的情况,还没反应过来就消失了,一开始因为影响不是很大,大家忍一忍就算了,还未引起重视,同时由于那时候本地环境资源消耗已达到80%以上,偶尔出现POD-OOM,怀疑是K8S集群资源不足造成的一系列问题。

事件扩大

本地环境新增节点后不久,接口超时的问题已经越来越明显,通常持续1-2min分钟内,大多数的接口请求会超时,大约半小时内发生一次,由于这样已严重阻碍了测试进度,测试开始将本地环境超时问题作为Bug进行定性。此事件经由开发转到运维进行解决处理。

Untitled

现象


(1)接口响应耗时较长,每次页面刷新接口不相同。偶发,非必现。

(2)前期不严重,接口响应通常为1s~3s,后期现象越来越严重,接口响应10s~50s

(3)Go项目接口超时较为明显。

解决思路


线路:"本地网络环境 $$" → "服务器资源" → "Kubernetes " → "系统底层" → "GlusterFS"

本地网络环境

既然是接口响应超时,而且是偶发性的,优先考虑是否为网络问题。通过一系列的网络状态监控查看,以及查看Ping的丢包率和延迟情况发现网络层面一切正常。

Untitled