您当前的位置:首页 > 电脑百科 > 程序开发 > 编程百科

高性能低延迟内存池实现技术

时间:2023-01-02 11:43:16  来源:今日头条  作者:码砖杂役

调用malloc分配内存大概是微秒级别,高并发低延迟系统的关键路径上,要慎用malloc/new,特别是在线程数量很大的情况下。

 

给一个测试数据:linux 64位系统,标准库malloc,单线程,gcc开O3优化,分配的size在4M以下随机,平均每次分配大概0.1-3微秒,具体数值跟分配行为有关,跟分配后是否free有关。

 

多线程下的malloc性能开销,我没有测,应该会比单线程下差很多很多。

 

微秒级的执行时间是什么概念?一般而言,简单的函数调用,里面做个加减乘除+拷贝几十个字节+逻辑判断,应该是几十个纳秒级别,由此可见,malloc/new调用是比较慢的。

 

我们来看看doris是怎么做内存管理的,推测这个方案是从某个开源库借鉴(chao)过来的,any way,性能不错,值得研究。

 

Doris内存管理分三层

系统配置器(system_allocator)

  • 封装系统/标准接口,提供allocate/free接口
  • allocate(size)根据size调用posix_memalign()或者mmap()
  • free()接口调用munmap()或者free()
  • 会在分配的时候做内存对齐。

块配置器(chunk_allocator)

  • 块(Chunk):通过system_allocator::allocate接口分配的内存块,包含内存块首地址指针、尺寸、core_id等信息
  • 为每个CPU core维护一个chunk_arena
  • 每个chunk_arena包含一个chunk_list
  • chunk_list为每个size维护一个该size的chunk集合
  • 为了减少各种size的数量,只维护固定size的chunk集合,比如8、16、32、64、128、256...,所以如果分配请求的大小是34字节,那么会向上圆整到64
  • 块配置器会使用系统配置器分配/回收内存
  • 块配置器是单件(唯一实例)

内存池(MemPool)

  • 对外提供allocate()、clear()、free_all()等接口
  • 维护通过allocate接口分配的ChunkInfo的列表,ChunkInfo在Chunk上增加了一个已分配字节数
  • 内存池会通过块分配器分配大块,每次分配的大块的大小会按X2(策略决定)增加,从而确保不会频繁调用块分配器的allocate接口
  • 通过内存池的allocate接口分配的内存,不支持单个块free,只支持统一释放:free_all()
  • clear()接口支持内存复用

 

三者之间的关系如下

 

system_allocator的作用

屏蔽了动态内存管理相关的底层系统调用和标准C/Posix编程接口

  • 如果单次申请的chunk size大于某个阈值,那就调用mmap/munmap
  • 否则调用posix_memalign
  • 上层应用不再直接调用底层API,而是调用system_allocator封装的编程接口:allocate/free

 

chunk_allocator是怎么工作的?

chunk_allocator是system_allocator的上层,会使用system_allocator的allocate/free接口申请和回收内存块。

 

chunk_allocator是MemPool的下层,提供allocate和free接口供MemPool使用。

 

chunk_allocator主要是减少了多线程竞争,chunk_allocator维护core_num个ChunkArena对象,该对象内维护一个chunk_list,为size=2^n的每个块维护一个free list,内存申请的时候,会对请求的size向上圆整。

 

因为每个core都有一个ChunkArena对象,所以上层应用代码申请内存的时候,先获取代码正在哪个核上执行,从而找到对应的ChunkArena对象,再通过size找到对应的free列表,再从该free list上摘除一个块。

 

多个逻辑线程依然可能调度到同一个核上执行,虽然多个线程不会在一个核上同时执行申请动态内存,但多个线程在一个核上交错执行(申请内存)的情况,依然会引发对free list的数据竞争(虽然这种情况出现的概率很小),这时候只需要用test_and_swap原子操作不停尝试就行了,如果尝试一定次数还不成功,则执行线程主动yield,让出CPU,从而让另一个在该核上执行内存分配的线程有机会继续执行,进而修改atomic_flag,然后之前yield CPU的线程被重新调度执行。

 

TAS(test and swap)是很快的,且冲突概率变得非常小(因为每个核都有一个atomic_flag,不会所有线程竞争一个锁),这样的免锁设计,让分配内存变得很高效。

 

chunk_allocator也做了一层cache,通过chunk_allocator::free释放的内存块,并不一定会真正调用底层的free,只在预留size超过限额的情况下,才会调用system_allocator的free(),这样进一步减少了对系统底层动态内存管理相关API的调用。

 

chunk_allocator是单件,唯一实例。

 

MemPool设计

咱们进一部分分析MemPool的设计,先给一张MemPool的图:

MemPool设计

MemPool的作用

内存池在system_allocator/chunk_allocator/MemPool的层次结构中,位于顶层,它依赖于下层chunk_allocator,间接依赖system_allocator,下层的类不反向依赖于MemPool。

 

先说Chunk和ChunkInfo。

 

Chunk就是底层接口单次分配的内存块,Chunk持有内存块首地址data,内存块大小size,以及分配的时候执行线程在哪个core上执行。

 

ChunkInfo包含Chunk,同时多了一个int allocated_size,这是因为,为了减少对
system_allocator::allocate()的调用次数,所以单次分配的chunk会比较大,几K,几十K,甚至XX M(兆),这个大的size记录在chunk->size上。但是,上层应用一次分配的内存可能比较小,几十字节之类,所以,该chunk还有多少字节可用(已经使用了多少字节),需要有一个记录,这就是allocated_size,相当于一个游标,每次从该chunk分配x字节,那就把allocated_size这个游标往增长的方向移动x字节(实际上会考虑到对齐)。

 

所以,对
system_allocator::allocate()的调用,相当于批发进货。对MemPool::allocate()的调用,相当于零售。效果上,就是减少了底层API的调用频率,减少了多线程竞争

 

MemPool持有一个next_chunk_size,它表示下次调用ChunkAllocator分配接口allocator的时候,需要分配多大,它被初始化为4K,下次分配的时候,会增加到8K,当然如果下次申请的size大于8K,则会取max。

 

next_chunk_size会一直增加,直到触达最大配置值,这样的设计,目的还是为了减少底层分配次数。

 

每次ChunkAllocator::allocate()都会返回一个Chunk,进而包装为ChunkInfo,被MemPool管理起来,所以MemPool会有多个ChunkInfo,用chunk_index标识chunk。

 

MemPool记录一个current_chunk_idx,这个idx记录了上次成功分配的ChunkInfo,下次分配的时候,先从current_chunk_idx指向的chunkInfo里尝试分配,如果该ChunkInfo的剩余内存空间不够,则会查找其他ChunkInfo,直到找到能满足分配请求的ChunkInfo,如果现有的所有ChunkInfo都不满足,那就走ChunkAllocator的allocate,并把新申请的Chunk,放入ChunkInfo list。

 

MemPool不支持单次分配的内存free,但是支持free_all,这会free该MemPool的所有Chunk。

 

MemPool::Clear()接口不会真正free Chunk,而是会重置allocated_size,复用原内存chunk。

 

一个细节,关于ChunkAllocator,分配的时候,会首先从线程运行的core上的ChunkArena分配,如果没有合适的,会从其他Core的ChunkArena里分配,再分配不到,才会从system_allocate,这样做的目的,是减少内存cache量。

 

我们做内存池有几个目标

  1. 吞吐,吞吐越大越好,能满足各种不同size,各种内存分配场景的大吞吐最好。
  2. 提高存储空间利用率,千方百计减少碎片(内碎片+外碎片,不懂请补课)。
  3. 为了提高速度,我们经常要做cache,但是cache多了,会造成宝贵的内存资源的浪费,所以,需要balance。
  4. 最后,非常重要的一点,提高cache利用率。

 

大家可以结合以上几点,慢慢体会该内存池的方式,是如何做到的。

 

很多人会质疑内存池的必要性,我只能说,如果线程很多,并发很大,时延要求也高,那可能真的需要加这么一层,不信你可以去测试一下。

 

不过,所有的方案都有缺点都有优点,都需要通用性,专用性,性能,效率,内存利用率等各个方面做出权衡,要结合业务,结合上层代码来定制。

 

Nginx,clickhouse的内存管理方案也不错,读者有兴趣可以去找来看看。



Tags:延迟   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
调用malloc分配内存大概是微秒级别,高并发低延迟系统的关键路径上,要慎用malloc/new,特别是在线程数量很大的情况下。 给一个测试数据:linux 64位系统,标准库malloc,单线程,gcc开O3...【详细内容】
2023-01-02  Tags: 延迟  点击:(0)  评论:(0)  加入收藏
算力网络作为承载信息数据的重要基础设施,已成为全社会数字化转型的重要基石。来自工信部的数据显示,2021年,我国算力核心产业规模达1.5万亿元。算力发展水平逐步提升,为数字经济发展夯实基础。...【详细内容】
2022-12-08  Tags: 延迟  点击:(55)  评论:(0)  加入收藏
微信具有与微信连接的能力,使企业更容易接触到用户,真正以客户为中心。一些企业还希望提高内部生产力。微信具有与微信连接的能力,使企业更容易接触到用户,真正以客户为中心。一...【详细内容】
2022-12-01  Tags: 延迟  点击:(97)  评论:(0)  加入收藏
微信是现在很重要的通讯工具,有了微信,大家手机电话都打少了。但相信很多朋友都经历过这样的事情,明明对方已经发消息过来了,可微信就是不显示。导致没有及时查看重要消息,这很影...【详细内容】
2022-12-01  Tags: 延迟  点击:(81)  评论:(0)  加入收藏
社交平台推特新老板埃隆·马斯克(Elon Musk)再次推迟蓝V用户付费认证订阅服务上线时间。...【详细内容】
2022-11-16  Tags: 延迟  点击:(65)  评论:(0)  加入收藏
pt-heartbeat的工作原理通过使用时间戳方式在主库上更新特定表,然后在从库上读取被更新特定表里的时间戳,再与本地系统时间对比来得出其延迟。具体流程:1)在主库上创建一张heart...【详细内容】
2022-11-11  Tags: 延迟  点击:(77)  评论:(0)  加入收藏
网络延迟指的是网络等待时间,是指一个数据包从用户的计算机发送到网站服务器,然后再立即从网站服务器返回用户计算机的来回时间。网络延迟是影响网络速度的因素之一。那么,网络...【详细内容】
2022-11-07  Tags: 延迟  点击:(207)  评论:(0)  加入收藏
Redis作为内存数据库,拥有非常高的性能,单个实例的QPS能够达到10W左右。但我们在使用Redis时,经常时不时会出现访问延迟很大的情况,如果你不知道Redis的内部实现原理,在排查问题时就会一头雾水。...【详细内容】
2022-11-01  Tags: 延迟  点击:(85)  评论:(0)  加入收藏
几年前,在通信领域的技术咨询经历,初步了解到预分配内存管理机制,其对于性能的改善是多么的明显。最近,也从点点滴滴的金融科技的领域,看到了高频交易所需要的低延时架构技术(当然...【详细内容】
2022-10-25  Tags: 延迟  点击:(67)  评论:(0)  加入收藏
美国9月核心CPI消费者通胀再创40年新高,更具黏性的服务通胀持续升温,显示高通胀已经蔓延到整个经济领域。华尔街将11月美联储加息75个基点的可能性锁定在100%,不少专业人士称,12...【详细内容】
2022-10-14  Tags: 延迟  点击:(47)  评论:(0)  加入收藏
▌简易百科推荐
前言cpu使用率100%问题,是一个让人非常头疼的问题。因为出现这类问题的原因千奇百怪,最关键的是它不是必现的,有可能是系统运行了一段时间之后,在突然的某个时间点出现问题。今...【详细内容】
2023-03-21  苏三说技术  微信公众号  Tags:CPU   点击:(1)  评论:(0)  加入收藏
要实现线程安全的 HashMap,可以考虑以下几种方法: 使用 ConcurrentHashMap:ConcurrentHashMap 是线程安全的 HashMap 实现,采用了分段锁的机制,可以提高并发性能。 使用 Collecti...【详细内容】
2023-03-21  德哥很ok  微信公众号  Tags:HashMap   点击:(1)  评论:(0)  加入收藏
当我们在项目中使用 React 构建界面时,主要使用的就是 React 包。它提供了开发者需要的所有API。如React.Component、React.createElement、React.useState等等,所以它也是大...【详细内容】
2023-03-20  前端时光屋  微信公众号  Tags:JSX   点击:(5)  评论:(0)  加入收藏
随着科技的发展,OCR场景随处可见,很多APP也集成如身份证识别,银行卡识别的功能,包括微信都支持截图文件中的文字提取。现在,各大厂商均有提供各种场景的OCR识别的API。但是,有时候...【详细内容】
2023-03-17  自学编程之道  今日头条  Tags:OCR   点击:(14)  评论:(0)  加入收藏
Kubernetes(K8s)集群中最关键的组件之一是 API Server,它是所有集群管理活动的入口点。从本文开始,我们将对 K8s API Server 的代码进行详细分析,并探讨其应用入口点、框架以及与...【详细内容】
2023-03-17  k8s技术圈    Tags:APIServer   点击:(10)  评论:(0)  加入收藏
1. 前言本篇内容基于java环境下,介绍OpenCV 4.6.0v 中创建 Mat 对象时传递的 CvType 参数。如果你不太能理解CvType.CV_8UCX,CvType.CV_8SCX,CvType.CV_16UCX,CvType.CV_16SCX...【详细内容】
2023-03-17  Zinyan    Tags:OpenCV   点击:(13)  评论:(0)  加入收藏
IT之家 3 月 16 日消息,苹果相关代码片段继续引用了“realityOS”,这可能与即将推出的 Apple AR / VR 设备有关。苹果代码中对 realityOS 的引用已经出现了几个月,甚至还申请了...【详细内容】
2023-03-16   IT之家     Tags:GitHub   点击:(7)  评论:(0)  加入收藏
​前言大部分公司的都会有可视化的需求,但是用echarts,antv等图表库,虽然能快速产出成果,但是还是要知道他们底层其实用canvas或svg来做渲染,canvas浏览器原生支持,h5天然支持的接...【详细内容】
2023-03-16  前端YUE  微信公众号  Tags:WebGL   点击:(7)  评论:(0)  加入收藏
大家好,我是三友~~今天来跟大家聊一聊Java、Spring、Dubbo三者SPI机制的原理和区别。其实我之前写过一篇类似的文章,但是这篇文章主要是剖析dubbo的SPI机制的源码,中间只是简单...【详细内容】
2023-03-14  三友的java日记  微信公众号  Tags:SPI机制   点击:(15)  评论:(0)  加入收藏
​一、介绍在实际的软件项目开发过程中,我可以很负责任的跟大家说,如果你真的实际写代码的时间超过5年,你对增删改查这类简单的功能需求开发,可以说已经完全写吐了,至少我就是这...【详细内容】
2023-03-14   Java极客技术  微信公众号  Tags:代码生成器   点击:(10)  评论:(0)  加入收藏
站内最新
站内热门
站内头条