您当前的位置：首页 > 互联网百科 > 大数据

三种方案优化 2000w 数据大表！

时间：2023-10-17 15:32:07 来源：微信公众号作者：码猿技术专栏

+ 加入收藏

当我们业务数据库表中的数据越来越多，如果你也和我遇到了以下类似场景，那让我们一起来解决这个问题

数据的插入,查询时长较长
后续业务需求的扩展在表中新增字段影响较大
表中的数据并不是所有的都为有效数据需求只查询时间区间内的

评估表数据体量

我们可以从表容量/磁盘空间/实例容量三方面评估数据体量，接下来让我们分别展开来看看

表容量：

表容量主要从表的记录数、平均长度、增长量、读写量、总大小量进行评估。一般对于OLTP的表，建议单表不要超过2000W行数据量，总大小15G以内。访问量：单表读写量在1600/s以内

查询行数据的方式：我们一般查询表数据有多少数据时用到的经典sql语句如下：

select count(*) from table
select count(1) from table 但是当数据量过大的时候，这样的查询就可能会超时，所以我们要换一种查询方式

use 库名
show table status like '表名' ; 或 show table status like '表名'G ;

上述方法不仅可以查询表的数据，还可以输出表的详细信息 , 加 G 可以格式化输出。包括表名存储引擎版本行数每行的字节数等等，大家可以自行试一下哈

磁盘空间

查看指定数据库容量大小

select
table_schema as '数据库',
table_name as '表名',
table_rows as '记录数',
truncate(data_length/1024/1024, 2) as '数据容量(MB)',
truncate(index_length/1024/1024, 2) as '索引容量(MB)'
from information_schema.tables
order by data_length desc, index_length desc;

查询单个库中所有表磁盘占用大小

select
table_schema as '数据库',
table_name as '表名',
table_rows as '记录数',
truncate(data_length/1024/1024, 2) as '数据容量(MB)',
truncate(index_length/1024/1024, 2) as '索引容量(MB)'
from information_schema.tables
where table_schema='MySQL'
order by data_length desc, index_length desc;

查询出的结果如下：

三种方案优化 2000w 数据大表！图片

建议数据量占磁盘使用率的70%以内。同时，对于一些数据增长较快，可以考虑使用大的慢盘进行数据归档（归档可以参考方案三）

实例容量

MySQL是基于线程的服务模型，因此在一些并发较高的场景下，单实例并不能充分利用服务器的CPU资源，吞吐量反而会卡在mysql层，可以根据业务考虑自己的实例模式

出现问题的原因

上面我们已经查到我们数据表的体量了那么为什么单表数据量越大业务的执行效率就越慢根本原因是什么呢？

一个表的数据量达到好几千万或者上亿时，加索引的效果没那么明显啦。性能之所以会变差，是因为维护索引的B+树结构层级变得更高了，查询一条数据时，需要经历的磁盘IO变多，因此查询性能变慢。

大家是否还记得，一个B+树大概可以存放多少数据量呢？

InnoDB存储引擎最小储存单元是页，一页大小就是16k。

B+树叶子存的是数据，内部节点存的是键值+指针。索引组织表通过非叶子节点的二分查找法以及指针确定数据在哪个页中，进而再去数据页中找到需要的数据；

三种方案优化 2000w 数据大表！图片

假设B+树的高度为2的话，关注公众号：码猿技术专栏，回复关键词：1111 获取阿里内部JAVA性能调优手册！即有一个根结点和若干个叶子结点。这棵B+树的存放总记录数为=根结点指针数*单个叶子节点记录行数。

如果一行记录的数据大小为1k，那么单个叶子节点可以存的记录数 =16k/1k =16.
非叶子节点内存放多少指针呢？我们假设主键ID为bigint类型，长度为8字节(面试官问你int类型，一个int就是32位，4字节)，而指针大小在InnoDB源码中设置为6字节，所以就是8+6=14字节，16k/14B =16*1024B/14B = 1170

因此，一棵高度为2的B+树，能存放1170 * 16=18720条这样的数据记录。同理一棵高度为3的B+树，能存放1170 *1170 *16 =21902400，也就是说，可以存放两千万左右的记录。B+树高度一般为1-3层，已经满足千万级别的数据存储。

如果B+树想存储更多的数据，那树结构层级就会更高，查询一条数据时，需要经历的磁盘IO变多，因此查询性能变慢。

如何解决单表数据量太大，查询变慢的问题

知道了根本原因之后，我们就需要考虑如何优化数据库来解决问题了

这里提供了三种解决方案，包括数据表分区，分库分表，冷热数据归档了解完这些方案之后大家可以选取适合自己业务的方案

方案一：数据表分区

为什么要分区：表分区可以在区间内查询对应的数据，降低查询范围并且索引分区也可以进一步提高命中率，提升查询效率

分区是指将一个表的数据按照条件分布到不同的文件上面，未分区前都是存放在一个文件上面的，但是它还是指向的同一张表，只是把数据分散到了不同文件而已。

我们首先看一下分区有什么优缺点：

表分区有什么好处？

与单个磁盘或文件系统分区相比，可以存储更多的数据。
对于那些已经失去保存意义的数据，通常可以通过删除与那些数据有关的分区，很容易地删除那些数据。相反地，在某些情况下，添加新数据的过程又可以通过为那些新数据专门增加一个新的分区，来很方便地实现。
一些查询可以得到极大的优化，关注公众号：码猿技术专栏，回复关键词：1111 获取阿里内部Java性能调优手册！这主要是借助于满足一个给定WHERE语句的数据可以只保存在一个或多个分区内，这样在查找时就不用查找其他剩余的分区。因为分区可以在创建了分区表后进行修改，所以在第一次配置分区方案时还不曾这么做时，可以重新组织数据，来提高那些常用查询的效率。
涉及到例如SUM()和COUNT()这样聚合函数的查询，可以很容易地进行并行处理。这种查询的一个简单例子如 “SELECT salesperson_id, COUNT (orders) as order_total FROM sales GROUP BY salesperson_id；”。通过“并行”，这意味着该查询可以在每个分区上同时进行，最终结果只需通过总计所有分区得到的结果。
通过跨多个磁盘来分散数据查询，来获得更大的查询吞吐量。

表分区的限制因素

一个表最多只能有1024个分区。
MySQL5.1中，分区表达式必须是整数，或者返回整数的表达式。在MySQL5.5中提供了非整数表达式分区的支持。
如果分区字段中有主键或者唯一索引的列，那么多有主键列和唯一索引列都必须包含进来。即：分区字段要么不包含主键或者索引列，要么包含全部主键和索引列。
分区表中无法使用外键约束。
MySQL的分区适用于一个表的所有数据和索引，不能只对表数据分区而不对索引分区，也不能只对索引分区而不对表分区，也不能只对表的一部分数据分区。

在进行分区之前可以用如下方法看下数据库表是否支持分区哈

mysql> show variables like '%partition%';
+-------------------+-------+
| Variable_name     | Value |
+-------------------+-------+
| have_partitioning | YES   |
+-------------------+-------+
1 row in set (0.00 sec)

方案二：数据库分表

为什么要分表：分表后，显而易见，单表数据量降低，树的高度变低，查询经历的磁盘io变少，则可以提高效率

mysql 分表分为两种水平分表和垂直分表

分库分表就是为了解决由于数据量过大而导致数据库性能降低的问题，将原来独立的数据库拆分成若干数据库组成，将数据大表拆分成若干数据表组成，使得单一数据库、单一数据表的数据量变小，从而达到提升数据库性能的目的。

水平分表

定义：数据表行的拆分，通俗点就是把数据按照某些规则拆分成多张表或者多个库来存放。分为库内分表和分库。比如一个表有4000万数据，查询很慢，可以分到四个表，每个表有1000万数据

三种方案优化 2000w 数据大表！图片

垂直分表

定义：列的拆分，根据表之间的相关性进行拆分。常见的就是一个表把不常用的字段和常用的字段就行拆分，然后利用主键关联。或者一个数据库里面有订单表和用户表，数据量都很大，进行垂直拆分，用户库存用户表的数据，订单库存订单表的数据

三种方案优化 2000w 数据大表！图片

缺点：垂直分隔的缺点比较明显，数据不在一张表中，会增加join 或 union之类的操作

知道了两个知识后，我们来看一下分库分表的方案

1.取模方案：

拆分之前，先预估一下数据量。比如用户表有4000w数据，现在要把这些数据分到4个表user1 user2 uesr3 user4。比如id = 17，17对4取模为1，加上，所以这条数据存到user2表。

注意：进行水平拆分后的表要去掉auto_increment自增长。这时候的id可以用一个id 自增长临时表获得，或者使用 redis incr的方法。

三种方案优化 2000w 数据大表！图片

优点：数据均匀的分到各个表中，出现热点问题的概率很低。

缺点：以后的数据扩容迁移比较困难难，当数据量变大之后，以前分到4个表现在要分到8个表，取模的值就变了，需要重新进行数据迁移。

2.range 范围方案

以范围进行拆分数据，就是在某个范围内的订单，存放到某个表中。比如id=12存放到user1表，id=1300万的存放到user2 表。

三种方案优化 2000w 数据大表！图片

优点：有利于将来对数据的扩容

缺点：如果热点数据都存在一个表中，则压力都在一个表中，其他表没有压力。

我们看到以上两种方案都存在缺点但是却又是互补的，那么我们将这两个方案结合会怎样呢？

3.hash取模和range方案结合

如下图我们可以看到 group 组存放id 为0~4000万的数据，然后有三个数据库 DB0 DB1 DB2，DB0里面有四个数据库，DB1 和DB2 有三个数据库

假如id为15000 然后对10取模（为啥对10 取模因为有10个表），取0 然后落在DB_0,然后在根据range 范围，落在Table_0 里面。

三种方案优化 2000w 数据大表！图片

总结：采用hash取模和range方案结合既可以避免热点数据的问题，也有利于将来对数据的扩容

我们已经了解了 mysql分区和分表的知识那我们看一下这两个技术有何不同以及适用场景

分区分表的区别：

1、实现方式上

mysql的分表是真正的分表，一张表分成很多表后，每一个小表都是完整的一张表，都对应三个文件，一个.MYD数据文件，.MYI索引文件，.frm表结构
分区不一样，一张大表进行分区后，他还是一张表，不会变成二张表，但是他存放数据的区块变多了。

2、提高性能上

分表重点是存取数据时，如何提高mysql并发能力上；
而分区呢，如何突破磁盘的读写能力，从而达到提高mysql性能的目的。

3、实现的难易度上

1、分表的方法有很多，用merge来分表，是最简单的一种方式。这种方式根分区难易度差不多，并且对程序代码来说可以做到透明的。如果是用其他分表方式就比分区麻烦了。2、分区实现是比较简单的，建立分区表，根建平常的表没什么区别，并且对开代码端来说是透明的

分区分表的联系

1、都能提高mysql的性高，在高并发状态下都有一个良好的表现。

2、分表和分区不矛盾，可以相互配合的，对于那些大访问量，并且表数据比较多的表，我们可以采取分表和分区结合的方式，访问量不大，但是表数据很多的表，我们可以采取分区的方式等。

分库分表存在的问题

1、事务问题

在执行分库分表之后，由于数据存储到了不同的库上，数据库事务管理出现了困难。如果依赖数据库本身的分布式事务管理功能去执行事务，将付出高昂的性能代价；如果由应用程序去协助控制，形成程序逻辑上的事务，又会造成编程方面的负担。

2、跨库跨表的join问题

在执行了分库分表之后，难以避免会将原本逻辑关联性很强的数据划分到不同的表、不同的库上，这时，表的关联操作将受到限制，我们无法join位于不同分库的表，也无法join分表粒度不同的表，结果原本一次查询能够完成的业务，可能需要多次查询才能完成。

3、额外的数据管理负担和数据运算压力

额外的数据管理负担，最显而易见的就是数据的定位问题和数据的增删改查的重复执行问题，这些都可以通过应用程序解决，但必然引起额外的逻辑运算，例如，对于一个记录用户成绩的用户数据表userTable，业务要求查出成绩最好的100位，在进行分表之前，只需一个order by语句就可以搞定，但是在进行分表之后，将需要n个order by语句，分别查出每一个分表的前100名用户数据，然后再对这些数据进行合并计算，才能得出结果。

方案三：冷热归档

为什么要冷热归档：其实原因和方案二类似，都是降低单表数据量，树的高度变低，查询经历的磁盘io变少，则可以提高效率如果大家的业务数据，有明显的冷热区分，比如：只需要展示近一周或一个月的数据。那么这种情况这一周喝一个月的数据我们称之为热数据，其余数据为冷数据。那么我们可以将冷数据归档在其他的库表中，提高我们热数据的操作效率。

接下来讲一下归档的过程

创建归档表创建的归档表原则上要与原表保持一致
归档表数据的初始化

三种方案优化 2000w 数据大表！图片

1、业务增量数据处理过程

三种方案优化 2000w 数据大表！图片

2、数据的获取过程

三种方案优化 2000w 数据大表！图片

以上三种方案我们如何选型

三种方案优化 2000w 数据大表！图片

大家可以根据自己的业务场景，去选择合适自己业务的方案，我这边就给大家提供一下思路～

Tags：数据点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

为训练AI，OpenAI等科技巨头花式淘数据

[环球时报特约记者甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频，形成对话文本数据，供其最新的AI学习...【详细内容】

2024-04-08　　Search: 数据点击:(7)　　评论:(0)　　加入收藏

训出GPT-5短缺20万亿token！OpenAI被曝计划建「数据市场」

全网真的无数据可用了！外媒报道称，OpenAl、Anthropic等公司正在努力寻找足够的信息，来训练下一代人工智能模型。前几天，OpenAI和微软被曝出正在联手打造超算「星际之门」，解决算...【详细内容】

2024-04-08　　Search: 数据点击:(1)　　评论:(0)　　加入收藏

国家数据局首次召开全国性工作会议释放哪些信号？

数据工作不仅事关经济社会发展、人们生产生活，也关乎国家发展与安全大局，其重要性不言而喻。我国是数据生产和应用大国，也是世界上首个提出数据要素理论的国家。正因为此，全国数...【详细内容】

2024-04-07　　Search: 数据点击:(4)　　评论:(0)　　加入收藏

向量数据库落地实践

本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见： https://github.com/vearch/zh_docs/blob/v3.3.X/do...【详细内容】

2024-04-03　　Search: 数据点击:(4)　　评论:(0)　　加入收藏

谷歌为了结集体诉讼，同意删除 Chrome 无痕模式下收集的用户数据

IT之家 4 月 2 日消息，根据华尔街日报报道，谷歌为了结追溯到 2020 年的集体诉讼案，近日同意删除通过 Chrome 浏览器“无痕（Incognito）模式”下收集的用户数据。这起诉讼原告认为，...【详细内容】

2024-04-02　　Search: 数据点击:(7)　　评论:(0)　　加入收藏

数据可视化在网络安全中的关键作用

在当今数字化时代，网络安全已成为各大企业乃至国家安全的重要组成部分。随着网络攻击的日益复杂和隐蔽，传统的网络安全防护措施已难以满足需求，急需新型的解决方案以增强网络防...【详细内容】

2024-03-29　　Search: 数据点击:(19)　　评论:(0)　　加入收藏

如何正确选择NoSQL数据库

译者 | 陈峻审校 | 重楼Allied Market Research最近发布的一份报告指出，业界对于NoSQL数据库的需求正在持续上升。2022年，全球NoSQL市场的销售额已达73亿美元，预计到2032年将达...【详细内容】

2024-03-28　　Search: 数据点击:(13)　　评论:(0)　　加入收藏

京东小程序数据中心架构设计与最佳实践

一、京东小程序是什么京东小程序平台能够提供开放、安全的产品，成为品牌开发者链接京东内部核心产品的桥梁，致力于服务每一个信任我们的外部开发者，为不同开发能力的品牌商家提...【详细内容】

2024-03-27　　Search: 数据点击:(9)　　评论:(0)　　加入收藏

为什么数据库连接池不采用 IO 多路复用？

这是一个非常好的问题。IO多路复用被视为是非常好的性能助力器。但是一般我们在使用DB时，还是经常性采用c3p0，tomcat connection pool等技术来与DB连接，哪怕整个程序已经变成以...【详细内容】

2024-03-27　　Search: 数据点击:(12)　　评论:(0)　　加入收藏

Google搜索引擎索引的网页数量有多少？谷歌官方提供数据进行参考

Google搜索引擎索引的网页数量有多少？二十世纪九十年代，网页的索引数量成了一个各大搜索引擎相互对比的指标。小编记得2000年谷歌搜索引擎的首页搜索框上方，还标记着谷歌索引的...【详细内容】

2024-03-27　　Search: 数据点击:(12)　　评论:(0)　　加入收藏

▌简易百科推荐

大数据杀熟何时告别“人人喊打却无可奈何”？

2月7日郑州飞往珠海的航班，不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历，引发社会广泛关注——用3个账号买同一航班同...【详细内容】

2024-01-30　　　　中国青年网　　Tags:大数据杀熟　点击:(32)　　评论:(0)　　加入收藏

简易百科：到底什么是大数据？

随着互联网的快速发展，大数据已经成为了当今社会最热门的话题之一。那么，到底什么是大数据呢？首先，我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】

2024-01-30　　　　简易百科　　Tags:大数据　点击:(40)　　评论:(0)　　加入收藏

数据采集新篇章：AI与大模型的融合应用

开篇在AIGC（人工智能与通用计算）应用中，大型语言模型（LLM）占据着举足轻重的地位。这些模型，如GPT和BERT系列，通过处理和分析庞大的数据集，已经极大地推动了自然语言理解和生成的边界...【详细内容】

2024-01-17　　崔皓　　51CTO　　Tags:数据采集　点击:(50)　　评论:(0)　　加入收藏

挑战 Spark 和 Flink？大数据技术栈的突围和战争

十年的轮回，正如大数据的发展一般，它既是一个轮回的结束，也是崭新的起点。大数据在过去的二十年中蓬勃发展，从无到有，崛起为最具爆炸性的技术领域之一，逐渐演变成为每个企业不可或...【详细内容】

2024-01-17　　InfoQ　　　　Tags:大数据　点击:(40)　　评论:(0)　　加入收藏

分布式存储系统在大数据处理中扮演着怎样的角色？

如果存储节点本身可以定制，则通常会让其支持部分计算能力，以利用数据的亲和性，将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储，无法定制，则通常会将数据在计...【详细内容】

2023-12-19　　木鸟杂记　　微信公众号　　Tags:大数据　点击:(48)　　评论:(0)　　加入收藏

大数据如何实时拯救生命：车联网的数据分析有助预防交通事故

译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大，尤其是当电动汽车成为汽车市场新的增长引擎。问题是：用户的数据平台准备...【详细内容】

2023-12-19　　　　51CTO　　Tags:大数据　点击:(41)　　评论:(0)　　加入收藏

利用生成对抗网络进行匿名化数据处理

在互联网时代，数据日益成为人们的生产资料。然而，在某些情况下，我们需要分享数据，但又需要保护个人隐私。这时，匿名化技术就显得尤为重要。本文将介绍利用生成对抗网络进行匿名化...【详细内容】

2023-12-18　　技巧达人小影　　　　Tags:数据处理　点击:(56)　　评论:(0)　　加入收藏

盘点那些常见的数据中心类型，你知道几个？

在数字化潮流的浪潮下，数据中心如同企业的神经系统，关系到业务的稳健运转。而在这个巨大的网络中，各种数据中心类型如雨后春笋般崭露头角。从企业级的个性至云数据中心的虚拟化...【详细内容】

2023-12-07　　数据中心之家　　微信公众号　　Tags:数据中心　点击:(65)　　评论:(0)　　加入收藏

数据中心的七个关键特征

随着信息技术的不断演进，数据中心的可靠性、可扩展性、高效性、安全性、灵活性、管理性和可持续性成为业界探讨的焦点。下面让我们一同深入剖析这些关键特征，了解它们是如何影...【详细内容】

2023-12-06　　数据中心之家　　微信公众号　　Tags:数据　点击:(63)　　评论:(0)　　加入收藏

什么是数据解析？将数据转化为更好的决策

什么是数据解析？数据解析是一门专注于从数据中获取洞察力的学科。它包含数据分析（data analysis）和管理的流程、工具和技术，包括数据的收集、组织和存储。数据解析的主要目的是...【详细内容】

2023-12-06　　计算机世界　　　　Tags:数据解析　点击:(62)　　评论:(0)　　加入收藏

推荐资讯

A股分拆上市密集改道：	探访“中国黄金第一家
藏在AI背后的“吃电狂	看1280份年报：大消费复
美联储年内可能不降息	热门黄金ETF瞬间跌停！
亏本卖！李嘉诚这又在唱	变味的重整：揭秘市值“