您当前的位置:首页 > 电脑百科 > 站长技术 > 服务器

记一次Linux server偶发CPU飙升问题的跟进与解决

时间:2022-08-01 10:02:29  来源:  作者:楚云梦里

背景

进入6月后,随着一个主要功能版本api的上线,服务端的QPS翻了一倍,平时服务器的CPU使用稳定在30%上下,高峰期则在60%上下,但是偶尔会有单台机器出现持续数分钟突然飙到90%以上,导致大量api响应缓慢超过客户端等待时间,触发其主动断开连接产生大量Nginx499。

问题分析与解决

问题期间器资源情况

仔细查看问题期间的zabbix监控数据,发现90%的CPU占用中有10%上下是sys time, 5%上下是softirq time,两者相加可占到接近20%, interrupt和context switch数由之前的10k/s飙升至20k+/s。

定位kafka log发送代码

首先猜测就是某个新加功能实现有bug,可能造成长时间未执行完成,多个类似请求长期占用CPU而后又被切换为其他线程,反复在这些耗时请求中来回切换却没法完成任意一个请求,并造成后续请求在队列中排队等待,导致大量请求超时响应。直接入手分析定位新增的某个复杂功能接口,确认不存在死循环的可能,怀疑是接口太耗性能长期占用CPU导致后续请求来不及处理最终连锁反应导致雪崩。

仔细分析其实现,发现总共会触发30+次kafka log发送,之前一直认为使用异步批量发送kafka log的情况下,多发几次log应该不会存在什么问题,不过这里一个请求触发30+次 kafka log发送确实有点太多了。

本着怀疑的精神决定实际验证一番kafka log发送耗时,结果发现每次kafka调用耗时居然在0.2-2ms之间波动,这相当于该复杂接口功能请求光是发送kafka消息就需要6-60ms时间,与之前认为应该很快的假设不符!

进一步分析原因,发现原来沿用的kafka producer初始化配置有大坑,其设置了batch_size=20之前一直理解为是每20条log触发一次实际发送,结果起始batch_size的单位是字节,其表示的是每满20字节触发一次实际发送==!所以实际效果是每次kafka log send都会触发实际发送。通过修改batch_size为64k并设置linger_ms为500ms,验证kafka log一边为批量发送模式后,再次测试kafka消息单次调用耗时变为了<0.1ms。
修改线上api服务kafka参数,并将复杂接口kafka send操作从30+次优化为10+次,reload服务后,意外发现内存占用居然还降了50%(2G=>1G),但是对于日常interrupt、context switch次数未观察到明显下降。

修改后连续几天未再出现CPU飙升偶发问题,但是坚持不到一周再次有机器出现类似问题,优化前平均1~2天一次,多的时候一天就有两三次,优化后出现频率降低为一周两三次,从这个角度来看优化具有一定效果。

尝试扩容解决

由于刚上了一个大版本功能,客户端确实新增了很多api调用,随着新版本覆盖用户数逐步升高,单机负载逐步升高,于是考虑再扩个容看能否解决问题,在某天下午快速扩容一台机器后,晚上又出现了该问题,该简单方案宣告失败。

定位linux内存水位

在前两个方案尝试解决问题失败后,开始细究一下每5分钟打印一次的机器top快照,仔细硬瞅之下还真发现点端倪:查看了单台机器过去近10次CPU飙涨时段的指标,发现free内存一般在CPU飙涨前剩余不到200M,而CPU恢复正常后free内存一般都剩余>1G,这个看上去有点不同寻常。进一步按图索骥观察到
kswapd_low_wmark_hit_quickly取值每天增长上千次,直觉上感觉是偏高的。
难道问题是free内存不足、回收引起的?然而zabbix监控上显示的可用内存一直都是>5G,理论上不应该存在不足才对,进一步探究了解到了free内存回收与内存水位的概念。

内存水位作用

Linux的设计思路是尽量多的使用空闲内存,除了保留一定量的真正空闲立马可用的内存作为free内存保证系统正常运转外,其他空闲内存会尽量用于系统缓存(buffer+cache),当free内存不足时则从buffer、cache中回收为free内存即可,而一般我们说linux的可用内存都是指available内存,其实际包括free+可回收的buffer+cache内存,这也是zabbix监控中可用内存使用的指标。
那实际应该保留多少free内存以及何时触发回收free内存呢?这里就需要引入linux的内存水位(watermark)概念了,具体可参考这篇文章--Linux内核调整watermark_scale_factor以缓解direct reclaim。简单来说就是linux设置了min/low/high三个内存水位,对应free内存在不同水位线的行为如下:

  • free > high,内存充足,什么都不用做
  • free内存由>high下降至<low,唤醒kswapd开始内存回收--其他进程依然可以正常申请内存
  • 若free内存一直下降至<min, 分配新内存的进程会直接触发自己同步内存回收操作--direct claim
  • kswapd终于回收free内存至>high,休眠100ms休眠100ms期间若free又下降至<low,则再次唤醒kswapd,并自增kswapd_low_wmark_hit_quickly值休眠100ms后若free变为<high,kswapd需继续回收内存至>high,而后继续休眠100ms,并自增kswapd_low_wmark_hit_quickly值休眠100ms后若free依然>high,kswapd将进入长期sleep等待下次被唤醒

内存水位计算与调整

而watermark的min/low/high三者的取值具体是由两个内核参数min_free_kbytes和watermark_scale_factor决定的,简单来说--参考
vm内核参数之内存水位min_free_kbytes和保留内存lowmem_reserve_ratio
:

watermark[WMARK_MIN] = (min_free_kbytes/4) * zone.pages/zone.allpageswatermark[WMARK_LOW] = 5/4watermark[WMARK_MIN]watermark[WMARK_HIGH] = 3/2*watermark[WMARK_MIN]

min水位直接由min_free_kbytes决定(后面的zone.pages/zone.allpages表示不同内存区按占总物理内存的比例均分对应水位值),而后min/low/high之间的差值则=1/4low,所以在一台8G(7969M)的线上机器上min/low/high取值默认为:

Node 0, zone      DMA  per-node stats      nr_inactive_anon 21704      nr_active_anon 171130      nr_inactive_file 1490263      nr_active_file 153139--Node 0, zone    DMA32  pages free     58451        min      6322        low      7902        high     9482   node_scanned  0--Node 0, zone   Normal  pages free     13169        min      10540        low      13175        high     15810   node_scanned  0

主要的Normal区域的min/low/high差值也就105400.254KB=10M左右,如果线上有突增流量,很可能一下子就跑到low乃至min水位之下了。

内存水位调整效果

通过watermark_scale_factor参数将默认值10/10000调整为200/10000,内存水位取值变为:

Node 0, zone      DMA  per-node stats      nr_inactive_anon 21910      nr_active_anon 278859      nr_inactive_file 1366921      nr_active_file 150022--Node 0, zone    DMA32  pages free     56340        min      6342        low      21660        high     36978   node_scanned  0--Node 0, zone   Normal  pages free     35915        min      10520        low      35926        high     61332   node_scanned  0

Normal zone内存水位min/low/high差值变为:low-min=99MB,调整完后对单台机器逐步放量至近期峰值的150%流量测试,未再出现该问题,至今2周过去了,线上机器未再出现该问题。
另一个验证水位调整效果的数据是查看并自增
kswapd_low_wmark_hit_quickly值变化值,在调整水位值之前,每天kswapd_low_wmark_hit_quickly新增在1000左右,调整后变为100次,降低了一个数量级。



Tags:CPU飙升   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
背景进入6月后,随着一个主要功能版本api的上线,服务端的QPS翻了一倍,平时服务器的CPU使用稳定在30%上下,高峰期则在60%上下,但是偶尔会有单台机器出现持续数分钟突然飙到90%以上,...【详细内容】
2022-08-01  Tags: CPU飙升  点击:(74)  评论:(0)  加入收藏
本周同步一张历史数据(大约1亿)表入ES,1000条为一个批次,最开始时按照表的创建时间(有索引)以天为单位进行的数据同步,在同步的过程中联系DBA老师查看数据库负载情况,最开始同步时CP...【详细内容】
2020-09-27  Tags: CPU飙升  点击:(506)  评论:(0)  加入收藏
你的电脑安装了windows系统后,现在还好吗?Windows系统是微软最引以为傲的PC端操作系统,包括吸粉无数的XP和win7系统,不怎么为人所知的win8和故障频出的win10!随着win7的停更,用户...【详细内容】
2020-04-24  Tags: CPU飙升  点击:(186)  评论:(0)  加入收藏
一、引子对于互联网公司,线上CPU飙升的问题很常见(例如某个活动开始,流量突然飙升时),按照本文的步骤排查,基本1分钟即可搞定!特此整理排查方法一篇,供大家参考讨论提高。二、问题...【详细内容】
2019-09-27  Tags: CPU飙升  点击:(416)  评论:(0)  加入收藏
前言最近系统(基于SpringCloud+K8s)上线,运维团队早上8点左右在群里反馈,系统登录无反应!我的第一反应是Mysql数据库扛不住了。 排查问题也是一波三折,有网络问题,也有mysql读写分...【详细内容】
2019-09-16  Tags: CPU飙升  点击:(413)  评论:(0)  加入收藏
作者:liugh_develop来源:https://my.oschina.net/liughDevelop/blog/1786631线上服务器用的是某讯云的,欢快的完美运行着Tomcat,MySQL,MongoDB,ActiveMQ等程序。突然一则噩耗从前...【详细内容】
2019-07-04  Tags: CPU飙升  点击:(549)  评论:(0)  加入收藏
▌简易百科推荐
众所周知,SSL证书通常是针对完全合格的域名(FQDN)颁发的。然而,一些企业和公共机构不能通过域名访问各种类型的应用程序,而是使用IP地址。为了有效保障这类企业的数据传输安全,IP...【详细内容】
2022-10-30  青蛙数字安全    Tags:SSL   点击:(14)  评论:(0)  加入收藏
现在搭建网站其中的三要素:域名、主机空间以及建站程序缺一不可。主机空间其实也就是我们常见的服务器,在搭建网站之前一般都会提前规划配置什么样的空间/服务器,其中美国虚拟...【详细内容】
2022-10-24  安信SSL证书    Tags:SSL证书   点击:(5)  评论:(0)  加入收藏
当前许多企业为吸引国际客户的关注,获取更多的国际市场机会,都把网站搭建在香港或国际多地的服务器上。但是在网站搭建完成后,发现网站无法访问,这是什么原因导致的呢?其实,遇到...【详细内容】
2022-10-24  云杰通信    Tags:服务器   点击:(8)  评论:(0)  加入收藏
我们如果要存储大量数据的话,都会用到服务器系统进行储存,很多IT公司都是拥有自己的服务器系统,那如果我们因为工作需要想要重装戴尔服务器系统的话,要怎么进行操作呢,下面教给大...【详细内容】
2022-10-24  小白一键重装系统    Tags:服务器   点击:(11)  评论:(0)  加入收藏
现在主流都在推荐使用SSL证书,部署了SSL证书能自动激活浏览器显示“锁”型标志,我们可以在浏览器的地址栏看到“https”开头的网址。SSL证书意味着在客户端浏览器和Web服务器...【详细内容】
2022-10-22  吠品    Tags:SSL证书   点击:(4)  评论:(0)  加入收藏
大家都知道安装域名安全证书,即SSL证书后相当于为网站加上了一层保护罩,能有效预防黑客攻击,避免传输信息的泄露,从而大大提高网站的安全性。虽然大多数网站使用域名申请SSL证书...【详细内容】
2022-10-21  Cntrus数字认证    Tags:SSL证书   点击:(5)  评论:(0)  加入收藏
今天,通过xftp向Centos系统的某个文件夹上传文件时,莫名其妙上传失败,提示的错误信息为Unknown error!首先排除了权限问题,但是具体是什么问题呢?初步怀疑是磁盘满了。那么如果确...【详细内容】
2022-10-20  紫气之巅  今日头条  Tags:CentOS   点击:(9)  评论:(0)  加入收藏
FTP服务软件安装包: vsftpd默认发布目录: /var/ftp协议接口: 21/tcp服务配置文件: /etc/vsftpd/vsftpd.conf报错id的解析:500 ##文件系统权限过大530 ##用户认证失败550 ##服务本...【详细内容】
2022-10-17  沪飘运维    Tags:FTP   点击:(19)  评论:(0)  加入收藏
一个朋友说他遇到这样一个问题,同样的服务器别人可以连接,自己却无法连接,捣鼓了好久都无法解决,很是郁闷。这个问题,刚好我之前也遇到过,后来完美解决了,这就给大家分享一下我的解...【详细内容】
2022-10-14  萌小翊  搜狐号  Tags:服务器   点击:(22)  评论:(0)  加入收藏
nginx 80端口重定向到443端口,也就是http访问自动跳转到https 配置如下:一、按照如下格式修改nginx.conf 配置文件,80端口会自动转给443端口,这样就强制使用SSL证书加密了。访问...【详细内容】
2022-10-09  运维技术站  今日头条  Tags:重定向   点击:(74)  评论:(0)  加入收藏
站内最新
站内热门
站内头条