您当前的位置:首页 > 新闻 > 科技

怎样优化一个 Go 服务以减少 40% 的 CPU 使用率?

时间:2020-06-12 15:53:19  来源:  作者:

10 年前,谷歌遇到一个由 C++ 编译时间过长造成的严重瓶颈,他们需要全新的解决方案。为应对这一挑战,谷歌工程师创建了一种叫 Go(又名 Golang)的新编程语言。Go 语言借鉴了 C++ 的优点(比如其性能和安全特性),同时结合了 Python 的开发速度,这让其能快速使用多个核心,实现并发计算。

在 Coralogix,我们解析客户日志来为它们提供相应的实时分析、警报和元数据等。为做到这一点,解析阶段必须非常快,但解析阶段却又非常复杂,并需要为每一个日志行服务加载大量规则。这是我们觉得采用 Golang 的原因之一。

这项新服务全天候运行在我们的生产环境中。虽然结果很不错,但是它仍然需要运行在高性能的机器上。这个 Go 服务运行在一台 8 核 CPU 和 36GB 内存的 AWS m4.2xlarge 实例上,每天解析超过数百亿的日志。

这个阶段,一切运行正常,可以将就,但这不是我们的风格,我们希望用更少的 AWS 实例来提供更多的功能,比如性能等。为实现这一目标,我们需要了解瓶颈的本质,以及如何能减少或完全消除它们。

问题分析

我们决定在服务上运行一些性能分析,并检查是什么导致 CPU 的高消耗,看看是否可以做些优化工作。

升级版本

首先,我们将 GO 升级到最新的稳定版本(软件生命周期中的关键一步)。此前,我们的版本是 1.12.4,现在用的是 1.13.8。

根据官方文档,1.13 版本在 runtime library 和一些对内存使用有很大影响的组件进行了重大改进。不管怎么说,使用最新的稳定版本很有意义,并且为我们节省了很多工作。

因此,内存消耗也从 800MB 左右优化到 180MB 左右。

分析开始

其次,为更好地理解我们的工作流程,并了解我们在哪里花费时间和资源,我们开始进行分析。

分析不同的服务和编程语言可能看起来非常复杂并令人生畏,但是在 Go 中,它实际上非常简单,仅用几个命令就可以实现。Go 有一个叫 "pprof" 的专门工具,可以通过监听路由(默认端口为 6060)在应用程序中启用该工具,并使用 Go 包来管理 HTTP 连接:

复制代码

import _ "net/http/pprof"

然后,在主函数或者路由包中启用如下操作:

复制代码

go func() {      log.Println(http.ListenAndServe("localhost:6060",nil))}()

现在我们可以启动服务并连接到

复制代码

Http://localhost:6060/debug/pprof

完整的 Go 文档可以参阅此处。

pprof 的默认配置是每隔 30 秒对 CPU 使用率进行采样。我们可以调整一些配置从而实现对 CPU 使用率、heap usage 等参数的采样。我们主要关注的是 CPU 的使用情况,因此在生产阶段中,我们采取一个 30 秒间隔的性能采样,并发现下图中的显示内容(注意:这是在我们升级了 Go 版本并将 Go 的内部组件降到最低之后的结果):

怎样优化一个 Go 服务以减少 40% 的 CPU 使用率?

 

Go profiling

如你所见,我们发现很多与运行时库(runtime package )相关的活动,其中需要特别指出是 GC(垃圾收集):几乎 29% 的 CPU 被 GC 使用,这还只是消耗最多的前 20 个对象。由于 Go 的 GC 已经非常快并做了很大优化,最好的实践就是不要去改变或修改它。由于我们的内存消耗非常低(与前一个 Go 版本相比),所以主要问题变成了高对象分配率。

如果是这样的话,我们可以做两件事情:

  • 调整 Go GC 活动来适应我们的服务行为,也就是说,我们需要延迟 GC 的触发来减少其运行频率。作为代价,我们将不得不消耗更多的内存。
  • 找出代码中分配了太多对象的函数、区域或行。

观察一下实例类型,我们有大量的空闲内存,而 CPU 数量则被机器类型所限制。因此我们需要调整这个比率。从 Golang 早期开始,就有一个阀值(flag)被大多数开发人员所忽视:GOGC。该阀值的缺省值为 100,它的主要工作就是告诉系统何时触发 GC。当堆达到其初始大小的 100% 时,默认值将触发 GC 进程。将默认值更改为更高数字则延迟 GC 触发,反之,将更快地触发 GC。我们开始针对不同的数值进行基准测试,最终发现当 GOGC=2000 时,我们能获得最佳性能。

这将我们的内存使用量从 200 MB 立刻增加到 2.7 GB(这还是在我们更新 Go 版本减少了内存消耗之后),并将我们的 CPU 使用率降低 10%。

下面的截图展示了这些基准测试的结果:

怎样优化一个 Go 服务以减少 40% 的 CPU 使用率?

 

Gogc=2000 的结果

CPU 使用率排名前 4 的函数变成了我们的服务函数,这才说得过去。现在,总的 GC 使用量变成了约 13%,比之前的一半还少。

继续深入

我们本可以就此打住,但我们还是决定继续去调查分配这么多对象的位置以及原因。很多时候,分配对象都有一个很好的理由(例如在流处理的情况下,我们为每条消息都创建了很多新对象,因为它与下一条消息无关,需要移除它),但在某些情况下,有一种简单的方法可以优化并极大地减少对象创建。

首先,让我们运行一个和之前相同的命令,只做一个小小的变动,采用 heap dump:

复制代码

Http://localhost:6060/debug/pprof/heap

为了查询结果文件,我们可以在代码文件目录中运行如下命令来分析调试结果:

复制代码

go tool pprof -allocobjects <HEAP.PROFILE.FILE>

我们的截图看起来是这样的:

怎样优化一个 Go 服务以减少 40% 的 CPU 使用率?

 

除第三行外,一切似乎都很合理。第三行是一个监控函数,在每个 Coralogix 规则解析阶段的末尾向我们的 Promethes 导出者(exporter)输出报告。为获取进一步的信息,我们运行以下命令:

复制代码

list <FunctionName>

例如:

复制代码

list reportRuleExecution

然后,我们得到以下结果:

怎样优化一个 Go 服务以减少 40% 的 CPU 使用率?

 

这两个对 WithLabelValues 的调用其实是针对度量的 Prometheus 调用(我们让产品来决定是否真的需要它)。此外,我们看到第一行创建了大量对象(占该函数总分配对象的 10%)。通过进一步研究,我们发现这是一个将客户 ID 从 int 转换为 string 的过程。该过程非常重要,但考虑到数据库中的客户数量有限,我们不应该为迎合 Prometheus 而将变量作为字符串接收。因此,我们没有在每次创建一个新字符串并在函数结束时丢弃它(浪费了分配时间和 GC 的更多工作),而是在对象初始化时定义了一个映射,映射了从 1 到 10 万之间的所有数字以及一个相对应的”get”操作。

我们运行了一个新的性能分析会话来验证上述论点,结果证明它是正确的(我们可以看到这部分不再分配对象了):

怎样优化一个 Go 服务以减少 40% 的 CPU 使用率?

 

这并不是一个非常大的改动,但总的来说,这为我们节省了另一个 GC 活动,更具体地说,大约 1% 的 CPU 使用率。

最终状态显示在下面的截图中:

怎样优化一个 Go 服务以减少 40% 的 CPU 使用率?

 

最终结果

内存使用:~1.3GB -> ~2.7GB

CPU 使用:~2.55 均值和~5.05 峰值 -> ~2.13 均值和~2.9 峰值。

Golang 优化之前的 CPU 使用率:

怎样优化一个 Go 服务以减少 40% 的 CPU 使用率?

 

Golang 优化之后的 CPU 使用率:

怎样优化一个 Go 服务以减少 40% 的 CPU 使用率?

 

总的来说,我们的改进主要体现在峰值时间段,每秒处理的日志数量提升了。这意味着我们的基础设施不再需要针对异常值进行调优,而且变得更加稳定。

总结

通过分析 Go 解析服务,我们能定位出问题区域,更好地理解我们的服务,并决定在哪里(如果有的话)投入时间来做改进工作。大多数性能分析工作最终都会参照用户使用情况对阀值或配置进行调优,从而获得更好的性能。



Tags:   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
前言什么是数据脱敏数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护常用脱敏规则替换、重排、加密、截断、掩码良好的数据脱敏实施1、尽...【详细内容】
2021-12-28  Tags: CPU 使用率  点击:(2)  评论:(0)  加入收藏
河南最有名的“13碗面”,吃过10种以上的一定是地道河南人,你吃过几碗?河南位于黄河中下游,优越的地理位置和条件,让河南的种植业在全国脱颖而出,被称为全国的“粮仓”。小麦是河南...【详细内容】
2021-12-28  Tags: CPU 使用率  点击:(3)  评论:(0)  加入收藏
在狗界中,有些狗狗比较凶残、霸道,今天我们就来说说被称为“犬中四煞”的4种狗,请认住它们的长相,看见了要绕路走! NO1:黑狼犬产地:中国寿命:11-12年黑狼犬是狼狗的一种,长大高大威猛...【详细内容】
2021-12-28  Tags: CPU 使用率  点击:(3)  评论:(0)  加入收藏
协议下的体面离婚 2015年1月 方晴供职于一家外企,袁亮硕士毕业后开了家公司。两人相识、恋爱后走进婚姻殿堂。 方晴和袁亮的儿子小浩出生了。本该是其乐融融的三口之家,却在一...【详细内容】
2021-12-28  Tags: CPU 使用率  点击:(2)  评论:(0)  加入收藏
中国人神话世界五千年到一万年之前到底是一个什么样的世界?相信这个问题应该是困扰了大家许久吧!其实这些问题可以从远古时代的三皇五帝开始说起,三皇五帝对于中国人的影响就如...【详细内容】
2021-12-28  Tags: CPU 使用率  点击:(2)  评论:(0)  加入收藏
去年有个新闻,说的是一名印度女孩自小被欧洲有钱人家收养,长大后要回来给自己出生的村子捐钱做慈善。等她回村的时候,村里人专门为女孩修了一条路。表面上看,这貌似是个暖心的故...【详细内容】
2021-12-28  Tags: CPU 使用率  点击:(3)  评论:(0)  加入收藏
日本在今年又给大家带来了一个巨大消息,日本著名的球星本田圭佑出资设立的一家公司,正式发售了飞行摩托车。 在之前可是在电视或者是电影中才能看到的,是具备了未来科幻的一个...【详细内容】
2021-12-28  Tags: CPU 使用率  点击:(4)  评论:(0)  加入收藏
V社今日公布了2021年Steam最畅销游戏榜单,其中涵盖了本年度Steam上收入最高的100款游戏。为了得出每款游戏的总收入,Steam计算了2021年1月1日至2021年12月15日的游戏销售额、...【详细内容】
2021-12-28  Tags: CPU 使用率  点击:(3)  评论:(0)  加入收藏
“都怪我一时糊涂铸下大错,这几年为了蒙混过关,拆东墙补西墙就怕被发现,我对不起信任我的领导同事,更对不起我的家人。”内蒙古某国有合资公司原出纳员包某在庭审现场听取公诉人...【详细内容】
2021-12-28  Tags: CPU 使用率  点击:(2)  评论:(0)  加入收藏
2021年黄金价格下跌11.3%,黄金现在已经下跌了6.5%。白银价格一度下跌19.3%,白银现在已经下跌了15%。美元通胀。白银自2020年2月份以来,五家中央银行(Fed、欧洲中央银行、日本中...【详细内容】
2021-12-28  Tags: CPU 使用率  点击:(3)  评论:(0)  加入收藏
▌简易百科推荐
非法购买公民信息、开发人脸认证规避技术&hellip;&hellip;今年年初,广东省公安厅网安部门侦破全国首例破解“青少年防沉迷系统”的新型网络犯罪案件,抓获犯罪嫌疑人13名,查处非...【详细内容】
2021-12-28    人民日报客户端  Tags:数据安全步   点击:(5)  评论:(0)  加入收藏
就在今天,腾讯方面宣布将在2022年1月31日下架企业QQ和营销QQ,其实这一消息的降临并不让笔者意外,因为早在今年的10月28日20点之后,企业QQ和营销QQ就被停止了续费服务。相信很多...【详细内容】
2021-12-27  科技探险家    Tags:企业QQ   点击:(20)  评论:(0)  加入收藏
日前,上海交通大学发布《全球电竞之都评价报告》,对全球15个致力于发展电竞之都的城市进行评价,上海作为中国城市电竞发展的排头兵,其拥有众多优质电竞企业及完整产业集群,因此排...【详细内容】
2021-12-27  经济日报    Tags:电竞   点击:(3)  评论:(0)  加入收藏
为优化网络氛围环境,微博又开始整顿用户信息了。本月月初,微博官方发布公告,要求昵称中带有如“二货”“SB”“瘪三”“娘炮”等明显低俗或侮辱性词汇的用户尽快修改,否则将面临...【详细内容】
2021-12-24  运了个营    Tags:微博   点击:(10)  评论:(0)  加入收藏
昨日谷歌宣布,自2022年12月19日开始停止对OnHub的软件支持,OnHub路由器仍将提供Wi-Fi信号,但用户无法用谷歌Home应用程序管理它。无法更新Wi-Fi网络设置、添加额外的Wifi设备或...【详细内容】
2021-12-22  雷峰网    Tags:Google OnHub   点击:(5)  评论:(0)  加入收藏
IT之家 12 月 20 日消息,百度网盘青春版 iOS 客户端今日晚间率先开启内测,安卓客户端将在稍后内测。使用苹果 iPhone 的IT之家小伙伴可以点此下载内测版,需要先下载 TestFlight...【详细内容】
2021-12-21  IT之家    Tags:百度网盘   点击:(10)  评论:(0)  加入收藏
对于拼车单,是接还是不接,不少网约车司机表示很矛盾。接吧,钱少事多,常常跑了个寂寞,不接吧,车多客少,挑三拣四没饭吃。 在平台大力推广拼车单之下,不少司机迫于生活压力,最终还是打...【详细内容】
2021-12-17  网约车情报分享    Tags:滴滴   点击:(9)  评论:(0)  加入收藏
蓝鲸TMT频道12月16日讯,据饿了么官方微信公众号,近日,在圆桌会上,蓝骑士与平台交流了配送安全问题。饿了么表示,线上将技术手段融入安全防护;线下将持续进行安全培训,并试点智能头...【详细内容】
2021-12-17    金融界  Tags:饿了么   点击:(24)  评论:(0)  加入收藏
开源最前线(ID:OpenSourceTop) 猿妹编译项目地址: https://github.com/restic/restic全球知名代码托管平台 GitHub 今天就重磅发布了今年的年度报告&mdash;&mdash;《2021 年度 O...【详细内容】
2021-12-17  Python部落    Tags:   点击:(9)  评论:(0)  加入收藏
新京报快讯 据中国网络视听节目服务协会网站消息,12月15日,中国网络视听节目服务协会发布了《网络短视频内容审核标准细则》(2021)。中国网络视听节目服务协会组织有关短视频平...【详细内容】
2021-12-16    新京报  Tags:短视频   点击:(11)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条