您当前的位置:首页 > 电脑百科 > 数据库 > 百科

分页查询出现数据重复或丢失,你遇到过吗?

时间:2023-03-13 14:57:27  来源:微信公众号  作者:鸭血粉丝Tang
如果是 App 端的查询,不建议设计多字段排序,因为在多字段排序的环境下,服务端在进行多条件的过滤查询时,可能会把有效的数据给过滤掉,如果无法避开,尽量将多个排序字段合并到一个排序字段上,保证数据的查询符合预期。

​一、问题背景

最近部分销售人员反馈在 APP 上查询自己名下客户订单数据时,当往下拉取数据的时候,列表上经常出现重复的订单数据,经过排查,后端代码是通过如下方式来实现数据的分页查询的。

limit offset, size order by create_time desc

经过细致的分析,这种排序方式,在 app 端分页查询的时候,确实存在问题。

详细的分析过程如下!

二、原因分析

首先我们初始化一张表,用于模拟订单表查询。

CREATE TABLE `tb_order` (
  `order_id` bigint(11) unsigned NOT NULL,
  `create_time` datetime DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

然后初始化 5 条数据进去,方便数据分析

INSERT INTO `tb_order` (`order_id`, `create_time`) VALUES (1, '2023-03-03 12:00:01');
INSERT INTO `tb_order` (`order_id`, `create_time`) VALUES (2, '2023-03-03 12:00:02');
INSERT INTO `tb_order` (`order_id`, `create_time`) VALUES (3, '2023-03-03 12:00:03');
INSERT INTO `tb_order` (`order_id`, `create_time`) VALUES (4, '2023-03-03 12:00:04');
INSERT INTO `tb_order` (`order_id`, `create_time`) VALUES (5, '2023-03-03 12:00:05');

假设我们每次只查询 2 条数据,并且按照时间倒序来查询,结果如下:

-- 发起第一页查询
select * from tb_order order by create_time desc limit 0,2;
-- 第一页查询结果
|order_id |   create_time       |
|5        |  2023-03-03 12:00:05|
|4        |  2023-03-03 12:00:04|

-- 发起第二页查询
select * from tb_order order by create_time desc limit 2,2;
-- 第二页查询结果
|order_id |   create_time       |
|3        |  2023-03-03 12:00:03|
|2        |  2023-03-03 12:00:02|

当订单数据没有发生变动的时候,这种查询方式是不会造成出现重复的数据问题。

但是当订单数据发生了变动,比如在查询的时候,突然新增了订单数据,此时的查询结果就完全不一样了。

还是以上面为例,假设在第一次查询的时候,突然新增了一条数据,看看结果如何。

-- 发起第一页查询
select * from tb_order order by create_time desc limit 0,2;
-- 第一页查询结果
|order_id |   create_time       |
|5        |  2023-03-03 12:00:05|
|4        |  2023-03-03 12:00:04|

-- 新增一条订单数据
INSERT INTO `tb_order` (`order_id`, `create_time`) VALUES (6, '2023-03-03 12:00:06');

-- 发起第二页查询
select * from tb_order order by create_time desc limit 2,2;
-- 第二页查询结果
|order_id |   create_time       |
|4        |  2023-03-03 12:00:04|
|3        |  2023-03-03 12:00:03|

可以很明显的发现,订单ID=4的数据,出现在页面上两次,正常情况下只有一次!

图片

上面说到的是新增一条数据,假设删除某条数据,看看结果如何。

-- 发起第一页查询
select * from tb_order order by create_time desc limit 0,2;
-- 第一页查询结果
|order_id |   create_time       |
|5        |  2023-03-03 12:00:05|
|4        |  2023-03-03 12:00:04|

-- 删除一条订单数据
delete from tb_order where order_id = 4;

-- 发起第二页查询
select * from tb_order order by create_time desc limit 2,2;
-- 第二页查询结果
|order_id |   create_time       |
|2        |  2023-03-03 12:00:02|
|1        |  2023-03-03 12:00:01|

可以很明显的发现,删除订单ID=4的数据之后,页面查询结果直接到订单ID=2了,直接跳过订单ID=3了,也就是说订单ID=3的数据展示,丢失了!

图片

总结下来,结论如下!

  • 当新增某条数据之后,通过常规的分页查询,列表会出现数据重复的现象;
  • 当删除某条数据之后,通过常规的分页查询,列表会出现数据丢失的现象;

那怎么解决以上的问题呢?办法如下!

三、解决方案

针对上面所说的分页查询方式,我们需要做一些调整,调整办法如下:

  • 第一步:当查询出当页的数据之后,记录下本次拉取的最后一条数据的排序字段值;当发起下一页数据查询的时候,带上这个参数,服务端通过这个参数做过滤条件
  • 第二步:排序字段值不能出现重复

以上面的新增为例,详细的实践过程如下:

-- 发起第一页查询
select * from tb_order order by create_time desc limit 0,2;
-- 第一页查询结果
|order_id |   create_time       |
|5        |  2023-03-03 12:00:05|
|4        |  2023-03-03 12:00:04|

-- 新增一条订单数据
INSERT INTO `tb_order` (`order_id`, `create_time`) VALUES (6, '2023-03-03 12:00:06');

-- 发起第二页查询,带上第一页查询的最后一条数据的排序字段值
select * from tb_order where create_time < '2023-03-03 12:00:04' order by create_time desc limit 0,2;
-- 第二页查询结果
|order_id |   create_time       |
|3        |  2023-03-03 12:00:03|
|2        |  2023-03-03 12:00:02|

此时的查询结果正常,符合预期效果!

同样的,以上面的删除为例,详细的实践过程如下:

-- 发起第一页查询
select * from tb_order order by create_time desc limit 0,2;
-- 第一页查询结果
|order_id |   create_time       |
|5        |  2023-03-03 12:00:05|
|4        |  2023-03-03 12:00:04|

-- 删除一条订单数据
delete from tb_order where order_id = 4;

-- 发起第二页查询
select * from tb_order where create_time < '2023-03-03 12:00:04' order by create_time desc limit 0,2;
-- 第二页查询结果
|order_id |   create_time       |
|3        |  2023-03-03 12:00:03|
|2        |  2023-03-03 12:00:02|

查询结果与预期一致,正常!

四、深入思考

  • 选择的排序字段值出现了重复,怎么办?

在上面我们提到了,排序字段值不能出现重复的要求,但是现实的情况是,如果以订单的创建时间来排序,当同一秒多次下单的时候大概率会出现重复,这个时候只能在订单表里面新增一个排序字段,设置全局唯一索引,内容是以时间为基础来生成,比如雪花算法,或者自己写一个基于时间全局自增的算法,确保全局唯一,最重要的是值的长度必须固定,订单主键 ID 的生成规则推荐采用此方式,利用主键 ID 来排序效率查询会非常高!

  • 当出现多个排序字段时,如何处理?

如果是 app 端的查询,不建议设计多字段排序,因为在多字段排序的环境下,服务端在进行多条件的过滤查询时,可能会把有效的数据给过滤掉,如果无法避开,尽量将多个排序字段合并到一个排序字段上,保证数据的查询符合预期。

五、小结

本文主要围绕 app 端分页查询出现数据重复或丢失的问题,进行一次复盘总结,如果有描述不对的地方,欢迎网友留言指出!

六、参考

1、知乎 - HQGDD - 分页出现数据重复或丢失的问题,一文搞定!



Tags:数据重复   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
分页查询出现数据重复或丢失,你遇到过吗?
如果是 app 端的查询,不建议设计多字段排序,因为在多字段排序的环境下,服务端在进行多条件的过滤查询时,可能会把有效的数据给过滤掉,如果无法避开,尽量将多个排序字段合并到一个...【详细内容】
2023-03-13  Search: 数据重复  点击:(187)  评论:(0)  加入收藏
Mysql中你知道几种防止数据重复的方法?
很多时候在日常的项目中,有些数据是不允许重复的,例如用户信息中的登陆名,一旦存在同一个登陆名,必然不知道到底是哪个用户执行登陆操作,导致系统异常。常常在防止数据重复的情况...【详细内容】
2020-11-16  Search: 数据重复  点击:(426)  评论:(0)  加入收藏
小心避坑:MySQL分页时使用 limit+order by 会出现数据重复问题
0 问题描述在MySQL中我们通常会采用limit来进行翻页查询,比如limit(0,10)表示列出第一页的10条数据,limit(10,10)表示列出第二页。但是,当limit遇到order by的时候,可能会出...【详细内容】
2020-02-26  Search: 数据重复  点击:(351)  评论:(0)  加入收藏
如何解决MySQL order by limit语句的分页数据重复问题?
问题描述在MySQL中我们通常会采用limit来进行翻页查询,比如limit(0,10)表示列出第一页的10条数据,limit(10,10)表示列出第二页。但是,当limit遇到order by的时候,可能会出现翻到...【详细内容】
2019-08-12  Search: 数据重复  点击:(1160)  评论:(0)  加入收藏
▌简易百科推荐
向量数据库落地实践
本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见: https://github.com/vearch/zh_docs/blob/v3.3.X/do...【详细内容】
2024-04-03  京东云开发者    Tags:向量数据库   点击:(5)  评论:(0)  加入收藏
原来 SQL 函数是可以内联的!
介绍在某些情况下,SQL 函数(即指定LANGUAGE SQL)会将其函数体内联到调用它的查询中,而不是直接调用。这可以带来显著的性能提升,因为函数体可以暴露给调用查询的规划器,从而规划器...【详细内容】
2024-04-03  红石PG  微信公众号  Tags:SQL 函数   点击:(5)  评论:(0)  加入收藏
如何正确选择NoSQL数据库
译者 | 陈峻审校 | 重楼Allied Market Research最近发布的一份报告指出,业界对于NoSQL数据库的需求正在持续上升。2022年,全球NoSQL市场的销售额已达73亿美元,预计到2032年将达...【详细内容】
2024-03-28    51CTO  Tags:NoSQL   点击:(14)  评论:(0)  加入收藏
为什么数据库连接池不采用 IO 多路复用?
这是一个非常好的问题。IO多路复用被视为是非常好的性能助力器。但是一般我们在使用DB时,还是经常性采用c3p0,tomcat connection pool等技术来与DB连接,哪怕整个程序已经变成以...【详细内容】
2024-03-27  dbaplus社群    Tags:数据库连接池   点击:(13)  评论:(0)  加入收藏
八个常见的数据可视化错误以及如何避免它们
在当今以数据驱动为主导的世界里,清晰且具有洞察力的数据可视化至关重要。然而,在创建数据可视化时很容易犯错误,这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可...【详细内容】
2024-03-26  DeepHub IMBA  微信公众号  Tags:数据可视化   点击:(7)  评论:(0)  加入收藏
到底有没有必要分库分表,如何考量的
关于是否需要进行分库分表,可以根据以下考量因素来决定: 数据量和负载:如果数据量巨大且负载压力较大,单一库单一表可能无法满足性能需求,考虑分库分表。 数据增长:预估数据增长...【详细内容】
2024-03-20  码上遇见你  微信公众号  Tags:分库分表   点击:(15)  评论:(0)  加入收藏
在 SQL 中写了 in 和 not in,技术总监说要炒了我……
WHY?IN 和 NOT IN 是比较常用的关键字,为什么要尽量避免呢?1、效率低项目中遇到这么个情况:t1表 和 t2表 都是150w条数据,600M的样子,都不算大。但是这样一句查询 &darr;select *...【详细内容】
2024-03-18  dbaplus社群    Tags:SQL   点击:(6)  评论:(0)  加入收藏
应对慢SQL的致胜法宝:7大实例剖析+优化原则
大促备战,最大的隐患项之一就是慢SQL,对于服务平稳运行带来的破坏性最大,也是日常工作中经常带来整个应用抖动的最大隐患,在日常开发中如何避免出现慢SQL,出现了慢SQL应该按照什...【详细内容】
2024-03-14  京东云开发者    Tags:慢SQL   点击:(5)  评论:(0)  加入收藏
过去一年,我看到了数据库领域的十大发展趋势
作者 | 朱洁策划 | 李冬梅过去一年,行业信心跌至冰点2022 年中,红衫的一篇《适应与忍耐》的报告,对公司经营提出了预警,让各个公司保持现金流,重整团队,想办法增加盈利。这篇报告...【详细内容】
2024-03-12    InfoQ  Tags:数据库   点击:(27)  评论:(0)  加入收藏
SQL优化的七个方法,你会哪个?
一、插入数据优化 普通插入:在平时我们执行insert语句的时候,可能都是一条一条数据插入进去的,就像下面这样。INSERT INTO `department` VALUES(1, &#39;研发部(RD)&#39;, &#39...【详细内容】
2024-03-07  程序员恰恰  微信公众号  Tags:SQL优化   点击:(20)  评论:(0)  加入收藏
站内最新
站内热门
站内头条