您当前的位置:首页 > 电脑百科 > 数据库 > 百科

过去一年,我看到了数据库领域的十大发展趋势

时间:2024-03-12 10:33:31  来源:InfoQ  作者:

作者 | 朱洁

策划 | 李冬梅

过去一年,行业信心跌至冰点

2022 年中,红衫的一篇《适应与忍耐》的报告,对公司经营提出了预警,让各个公司保持现金流,重整团队,想办法增加盈利。这篇报告的推出的时间点应该是各个整个行业的拐点,大家不再期待 V 型复苏拐点,信心开始逐步跌落,2023 年初跌倒谷底和冰点。2023 年整个一年都是在艰难的慢慢恢复,各行各业普遍艰难,公司裁员加剧,就业率创新低。数据库行业 2021 年的资本盛宴开始,众多创业者刚想闯进来分一杯羹,22 年底 23 年初就结束了,应该说让从业者深刻体会到了什么是大起大落。站在 2024 年起点往回看,还是非常感慨和唏嘘。作为大起大落的亲历者,今天这篇我们一起来总结数据库行业在 2023 年的一些情况,我会尽量涉及到产品技术,厂商发展,市场环境等多个方面,受限于时间和水平不足,肯定有不少错漏之处,也欢迎大家一起探讨。接下来就正式进入正题:

趋势一:HTAP 成为主流数据库的一项基础能力

数据库技术起源于美国,中国在这个行业里面不管是市场容量,技术方面总体来说还是全面落后于美国的。所以产品技术这块国内和国外还是有很大的区别,有些方面国内非常火热,但是在国外缺完全不一样,反过来也是一样的。首先这个特别明显的就是 HTAP 和 Serverless 两项技术,HTAP 在国内比国外热,Serverless 则更是成为海外产品的 default 选项。

HTAP 概念能在国内火爆,TiDB 功不可没,甚至一度大家觉得这可能是一个细分赛道,不过经过几年下来,行业还是逐渐形成了一个共识,HTAP 是数据库的一项基础能力,而不是一个细分赛道,或者反过来说 HTAP 不足于支撑一个单独的数据库细分门类。2023 年一个重要的趋势就是各个主流数据库都把 HTAP 支持作为一项基础能力。典型的有:

23 年 10 月腾讯的 TDSQL-C 也列存索引,并把列存索引和并行查询整体包装成 HTAP 能力。

23 年 12 月百度发布 GAIaDB 4.0,重要升级就是推出列存索引和列存引擎,提升不同规模数据的查询速度,其中列存引擎最大可支持 PB 级数据的复杂分析,并且与事务处理业务严格复杂隔离。

海外这个概念提的比较少,google AlloyDB 算是正式提过这个概念,AWS 重点宣传的是 Zero-ETL,本质上也是 HTAP 的能力,但总的来说海外对这个概念并不是特别感兴趣。

趋势二:Serveless 成为头部厂商的共识

Serverless 在美国经过 AWS 长达十余年不遗余力的宣传,早就深入人心,国内因为不同的市场环境,企业普遍还是喜欢预付费为主,所以这种弹性动态的优势就不明显,因此导致 Serverless 在国内发展缓慢。

数据库 Serverless 这块阿里发力最早,21 年就开始布局,23 年把 Serverless 作为主推方向,基本 TP,AP,NoSQL 各个方向都支持了 Serverless,甚至传统的 RDS 产品线,以及工具的 DTS 产品也开始支持 Serverless。

23 年 8 月份,腾讯的 TDSQL-C 也宣传支持 Serverless,并把主打的差异化点是可以完全释放存储,数据变成归档。业内的 Serverless 无法完全做到不使用不付费,一般实例暂停后仍然会收取高昂的存储费用,可释放存储将彻底解决这一问题。当实例暂停后,数据会进行归档存储。用户无需再为高额的分布式存储进行付费,可在原实例暂停后的存储费用上降低成本 80%。

年底的时候华为 GuassDB for MySQL 也全面商用,号称相比固定规格,Serverless 实例平均可降低使用成本超 30%,特定情况甚至有 80%+ 的成本降低。

所以从 2023 年开始,Serverless 可以说成为头部厂商的共识了,相信在接下来数据库 Serverless 会有一个长足的发展。

趋势三:国内在产品形态上部分开始领先海外

相比 HTAP,分布式产品在国内发展更充分,竞争对手很多,所以更值得说一说。分布式数据库国内 OceanBase,TiDB,PolarDB-X 都是比较有特色和竞争力的产品,其中阿里的 PolarDB-X 很早就开始布局和支持存储分离 + 分布式的技术,走一条存算分离,分布式一体化的技术路线。下图是阿里宣传的融合架构图:

2023 年 AWS re:Invent 上宣布推出 Aurora Limitless Database,本质上是存算分离的 Aurora 的基础上加了一层 proxy 做分布式。下图就是 AWS 的架构:

看到 AWS 这个新的发布,国内数据库圈子好一阵沸腾,觉得国内的数据库一些方面也可以领先美国厂商了。其实这个趋势并不是发生在 2023 年某一天,而是一个逐步积累的过程。早在 2020 年的时候,国内的阿里云 RDS 产品能力就比 AWS 要强,提供了三节点,双节点,单节点,拖管,半拖管等多种形态,除了 AWS 形态,产品性能,规格丰富等都比 AWS 要强。

所以这个趋势并不能说是 2023 年的新趋势,这个趋势一直在发生;但是还是非常值得放到 2023 年重大趋势中拿出来说,这个还是非常明显标志着:随着国内的工程技术能力的逐步增强,会有越来越多的产品领先美国厂商。

趋势四:AI4DB and DB4AI 成功翻红

AI4DB,DB4AI 喊了很多年,谈不上新概念,不过在 2023 年大模型的带动下,数据库和 AI 结合又有了新的想象力,大模型的巨大威力,让厂商纷纷研究数据库和大模型的结合。

首先是 23 年 8 月份,腾讯云向量数据库(Tencent Cloud Vector DB)正式上线公测。作为一款全托管的自研企业级分布式数据库服务,腾讯云向量数据库专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似度计算方法,单索引支持 10 亿级向量规模,可支持百万级 QPS 及毫秒级查询延迟,不过半年后,直到笔者写这篇文章的时候,腾讯的向量数据库还是没有商用。

百度也赶在年底发布了单独的自研向量数据库,百度向量数据库 VectorDB 是一款纯自研高性能、高性价比、生态丰富且即开即用的向量数据库服务。支持多种索引类型和相似度算法,百亿级向量规模,毫秒级查询延迟。百度向量数据库不仅能配合大模型打造专业知识库,还可以应用于图片搜索,音乐推荐,文本分类等领域。

23 年 12 月份,百度还发布 DBSC(数据库智能驾驶舱),这个是利用 AI 的技术,为用户提供安全审计、智能诊断与数据库管理的数据库自治服务。DBSC 利用 AI 大模型能力和专家经验实现数据库的智能化洞察、评估和优化。有效保证数据库服务的安全、稳定及高效。这块的探索应该说阿里最早,阿里的 DAS 产品在 20 年就看准了数据库安全自治工具一体化成主流趋势。百度的 DBSC 比较有特色的是提供问答诊断、工单处理、知识查找等能力的智能手,这个能力其实是非常考验产品知识的积累的。

NoSQL 这块阿里的 Lindorm 直接简单粗暴的将大模型内置到系统里面,支持以图搜图功能,应该说是一种探索,不过总体觉得还是比较难做出特色和实用价值的。

美国的 AWS 利用 AI 增强 ETL 能力,Google 利用大模型实现代码改写能力,也是在这个方向发力,国内的也有创业公司跟进,不过目前离成熟还需要一些时间。

趋势五:云厂商开始发挥软硬件垂直整合优势

应该说云厂商本质上先革 IDC 的名,再革各种基础软件的命,要相比客户自建有明显的优势,推出自研,走垂直整合是必选道路。前一个非常成功的 2C 厂商是苹果,2B AWS 也是复制这条道路。国内总体差距比较大,云厂商里面华为,阿里跟进的比较快,都推出了 ARM 系列芯片,国内目前最强的应该是华为的鲲鹏系列。

2023 年开始阿里的全线主力产品都进行了适配,阿里发布的 RDS 经济版本就是 适配 ARM 系列,基于倚天 /ARM 芯片服务器上持续优化,提高性能,定价则是只有 X86 实力的 60%~70% 的价格,通过性价比吸引用户尝鲜和试用。应该说短期内 ARM 的能力还不够,所以是经济版本,长期看,ARM 应该要能能力迭代更快,长期发挥比 X86 更好的能力。如果走向这一天,云厂商的相比自建客户的优势将进一步拉大。

华为、阿里的动作标志着云厂商 2023 年也开始发挥垂直整合的优势,不过总体来说国内的发展水平相对美国还是差距比较大。

趋势六:RDS 还是常青大盘产品,NoSQL 创新相对较少

2023 年我们观察到,NoSQL 是随着互联网场景诞生的,随着十多年的发展,开始碰到一定的创新瓶颈了。反过来关系型数据库都纷纷一定程度上吸收了 NoSQL 在性能,分布式,高可用的优势,关系型数据库反倒有不少进展。

阿里云栖大会,集中展示了阿里 RDS 的进展,包括解决通用云盘 IOPS 和容量解耦的问题,通过冷温热数据分层,读写性能提高 102%,存储成本降低 90%。内核层面也有创新,通过 binlog 并行解析,缩短 crash/recovery 时间,改进 RTO 事件,支持表级别、行级别压缩;冷温热数据分层,降低客户使用成本等等。应该说从产品形态,计费,内核全方面进行了改进。

整个行业在 NoSQL 这块相对而言就乏善可陈了。

另外 中立厂商 NineData 进行了第三方公开 RDS sysbench 测试,华为云,百度云分列第一二位,反而不是大家理解的阿里、腾讯。说明在这个领域国内云厂商竞争还是非常激烈的,阿里腾讯保持优势也还是非常困难的。也说明这个领域发展还是比较快的。应该说 RDS 仍能是常青大盘型产品。NoSQL 主要是向量数据库有一些发展,期待传统的缓存,文档数据库以及一些细分时序,图等领域有更多的创新点。

趋势七:国产数据库纷纷演进 RAC 架构,企图突破集中式架构

RAC 架构是 Oracle 经典架构,在 Oracle 10/11 就已经推出。

互联网厂商因为数据量特别大,Oracle license 又特别贵,所以纷纷用 MySQL,叠加各种分布式技术来实现 Oracle 的替代,这就是轰轰烈烈的去 IOE。所以在过去的一段时间,有认为 RAC 就是落后的代表,但是随着时间的发展,大家还是纷纷发现,一般的企业不一定需要那么大的数据量,在这种场景下 RAC 优势就比较明显了。

所以 2023 年在私有化场景上有一个非常明显的趋势,就是国产数据库厂商纷纷发布了类似 RAC 技术的产品。典型的有达梦 DSC 已经在部分用户那边商用了,优璇再次发布了 SuperRAC,人大金仓也很快会推出共享存储多读多写的产品,高斯的 RAC 版本已经在路上了,虚谷伟业的 RAC 也在开发中。

但同时有意思的是,国内纷纷支持 RAC, 2023 年 oracle 原厂开始宣布支持分布式能力。所以说技术关键还是看场景,适合的场景选择适合的技术,未来大概率通用数据库会走的道路是分布式存算分离一体化的道路,给客户丰富的选择。

趋势八:国内融资环境异常艰难

前面讲的都是技术方面的,除了技术外,市场环境,厂商发展在 2023 年也是精彩纷呈,值得一看,接下来说几个关键点。

首先就是 2023 年国内的融资环境异常艰难,相对于 2021 年的高歌猛进,2023 年异常冰冷,市场上绝大部份公司都很难融资,只有少数的公司获得融资,而且金额也不是很高。

所以我们会看到国内很多大佬纷纷下场,预言 2027 年国内数据库厂商十家,二十家左右。应该说国内数据库厂商现在是有点多了,近 300 个数据库,200 家厂商,而数据库又是一个非常通用的产品,所以是非常难容得下这么多的厂商的,至于是十家,还是二十家不关键;关键是怎么在这个残酷的市场竞争力活下来是非常考验的。

总的来说,我相信最有创新能力,客户服务能力强的厂商会活下来。

趋势九:信创提速

信创从 2019 年大力推行以来,金融行业走的最快,金融行业基本完成了大行,股份制的划分,推进到了中小行。国家在推动信创目录上也是动作频频。12 月刚公布的新一轮信创目录:http://www.itsec.gov.cn/aqkkcp/ywjs/。

另外除了金融行业,明显看到其他关键行业如电信、电力都加快了信创的速度。现在信创最大的问题还是竞争太激烈,导致没有一个实际赚到钱的厂商。大概估计数据库研发人均收入还不足 50 万,离健康的 500 万差 10 倍以上。

信创就是个双刃剑,给了数据库厂商希望,估计未来大量倒闭的也是出在这个领域。

趋势十:头部独立厂商商业化能力越来越强

最后一个趋势,留给在数据库行业挣扎的企业。

应该说宏观环境很不好,但是头部厂商还是持之以恒的突破。像 OB 加大了公有云投入,获得了一些标杆客户,像包括新零售行业的海底捞、二维火和客如云,制造业的理想汽车,互联网行业的高德、携程、快手、作业帮、翼鸥教育、GCash,以及跨境行业的洋葱集团、纵腾集团、递四方等。

TiDB 还在持续拓展海外客户,包括尝试 Serverless 等,和 AWS 合作在客户上也有不错的进展。

国内深圳计算所推出的崖山数据库,是今年的异军突起,有一些标杆客户,主打 Oracle 兼容,包括推出个人版已向所有用户和开发者全面开放下载,大家可以去尝试使用一下。

2024 年,数据库领域将是柳暗花明又一村

2023 艰难的一年过去,迎来了有希望的 2024 年。展望 2024,我们判断未来会有这么几个大的趋势:

  • AI 代码改写会越来越成熟,Oracle 转 MySQL,PG 预计会变得很简单。
  • 向量数据库会走向更务实的实用阶段,预计在智能问答,助手等领域会有更多实际应用。
  • 存算分离和分库分表分布式技术会走向融合。
  • 1~2 年之内,Serverless 在国内会变得很普及,各个云厂商都预计会推出 serveless 数据库产品。
  • 数据仓库领域,湖仓一体化,会成为数据仓库的主要形态,形成共识。
  • 2024 年应该会是数据库的转折点,有一些数据库厂商会被淘汰。

微软 Copilot 生成暴力色情图且拒不更改,内部工程师绝望举报至政府!

奥特曼无罪重返董事会!谷歌华人工程师被捕:号称自己能力“全球仅10个”;美国要求字节跳动半年内剥离TikTok | Q资讯

谷歌:不建议未成年人接触 C++,太过危险!Yann LeCun 和马斯克看到都笑了

马斯克最新回应:OpenAI 的“邮件攻击”在说谎!斯诺登力挺:OpenAI 这么做是反人类!



Tags:数据库   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
向量数据库落地实践
本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见: https://github.com/vearch/zh_docs/blob/v3.3.X/do...【详细内容】
2024-04-03  Search: 数据库  点击:(4)  评论:(0)  加入收藏
如何正确选择NoSQL数据库
译者 | 陈峻审校 | 重楼Allied Market Research最近发布的一份报告指出,业界对于NoSQL数据库的需求正在持续上升。2022年,全球NoSQL市场的销售额已达73亿美元,预计到2032年将达...【详细内容】
2024-03-28  Search: 数据库  点击:(13)  评论:(0)  加入收藏
为什么数据库连接池不采用 IO 多路复用?
这是一个非常好的问题。IO多路复用被视为是非常好的性能助力器。但是一般我们在使用DB时,还是经常性采用c3p0,tomcat connection pool等技术来与DB连接,哪怕整个程序已经变成以...【详细内容】
2024-03-27  Search: 数据库  点击:(12)  评论:(0)  加入收藏
过去一年,我看到了数据库领域的十大发展趋势
作者 | 朱洁策划 | 李冬梅过去一年,行业信心跌至冰点2022 年中,红衫的一篇《适应与忍耐》的报告,对公司经营提出了预警,让各个公司保持现金流,重整团队,想办法增加盈利。这篇报告...【详细内容】
2024-03-12  Search: 数据库  点击:(24)  评论:(0)  加入收藏
让数据库和缓存数据保持一致的三种策略
如何保证缓存和数据库的一致性,这算得上是个老生常谈的话题啦,看到好多技术新人在写更新缓存数据代码,采用了非常复杂甚至“诡异”的方案,甚为不解。一、背景目前随着缓存架构方...【详细内容】
2024-02-20  Search: 数据库  点击:(35)  评论:(0)  加入收藏
MySQL数据库如何生成分组排序的序号
经常进行数据分析的小伙伴经常会需要生成序号或进行数据分组排序并生成序号。在MySQL8.0中可以使用窗口函数来实现,可以参考历史文章有了这些函数,统计分析事半功倍进行了解。...【详细内容】
2024-01-30  Search: 数据库  点击:(53)  评论:(0)  加入收藏
一篇文章,彻底理解数据库操作语言:DDL、DML、DCL、TCL
本篇文章以具体的SQL语句讲解了数据库SQL语言四大分类(数据定义语言DDL,数据操作语言DML,数据查询语言DQL,数据控制语言DCL),同时也介绍了事务控制语言TCL。最近与开发和运维讨论...【详细内容】
2024-01-30  Search: 数据库  点击:(41)  评论:(0)  加入收藏
一文读懂:什么是数据库,它到底有啥用?
提到数据库,可能很多人会很陌生。但据库其实已经渗入我们生活的方方面面,像网上购物、扫码点餐、抢红包等等应用背后都离不开数据库的支持。可以说数据库是支撑各类应用软件运...【详细内容】
2024-01-25  Search: 数据库  点击:(42)  评论:(0)  加入收藏
oracle数据库基础学习
在当今数字化时代,数据库已成为企业运营的关键要素。而Oracle数据库,作为全球领先的企业级数据库管理系统,更是备受推崇。本文将带您深入了解Oracle数据库的基础知识,帮助您从零...【详细内容】
2024-01-20  Search: 数据库  点击:(85)  评论:(0)  加入收藏
一个流行的支持超多数据库的ORM库
Sequelize 是一个流行的 Node.js ORM(对象关系映射)库,用于在 Node.js 中操作关系型数据库。它支持多种数据库系统,如 PostgreSQL、MySQL、SQLite 和 MSSQL,并提供了简单易用的 A...【详细内容】
2024-01-15  Search: 数据库  点击:(74)  评论:(0)  加入收藏
▌简易百科推荐
向量数据库落地实践
本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见: https://github.com/vearch/zh_docs/blob/v3.3.X/do...【详细内容】
2024-04-03  京东云开发者    Tags:向量数据库   点击:(4)  评论:(0)  加入收藏
原来 SQL 函数是可以内联的!
介绍在某些情况下,SQL 函数(即指定LANGUAGE SQL)会将其函数体内联到调用它的查询中,而不是直接调用。这可以带来显著的性能提升,因为函数体可以暴露给调用查询的规划器,从而规划器...【详细内容】
2024-04-03  红石PG  微信公众号  Tags:SQL 函数   点击:(3)  评论:(0)  加入收藏
如何正确选择NoSQL数据库
译者 | 陈峻审校 | 重楼Allied Market Research最近发布的一份报告指出,业界对于NoSQL数据库的需求正在持续上升。2022年,全球NoSQL市场的销售额已达73亿美元,预计到2032年将达...【详细内容】
2024-03-28    51CTO  Tags:NoSQL   点击:(13)  评论:(0)  加入收藏
为什么数据库连接池不采用 IO 多路复用?
这是一个非常好的问题。IO多路复用被视为是非常好的性能助力器。但是一般我们在使用DB时,还是经常性采用c3p0,tomcat connection pool等技术来与DB连接,哪怕整个程序已经变成以...【详细内容】
2024-03-27  dbaplus社群    Tags:数据库连接池   点击:(12)  评论:(0)  加入收藏
八个常见的数据可视化错误以及如何避免它们
在当今以数据驱动为主导的世界里,清晰且具有洞察力的数据可视化至关重要。然而,在创建数据可视化时很容易犯错误,这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可...【详细内容】
2024-03-26  DeepHub IMBA  微信公众号  Tags:数据可视化   点击:(6)  评论:(0)  加入收藏
到底有没有必要分库分表,如何考量的
关于是否需要进行分库分表,可以根据以下考量因素来决定: 数据量和负载:如果数据量巨大且负载压力较大,单一库单一表可能无法满足性能需求,考虑分库分表。 数据增长:预估数据增长...【详细内容】
2024-03-20  码上遇见你  微信公众号  Tags:分库分表   点击:(13)  评论:(0)  加入收藏
在 SQL 中写了 in 和 not in,技术总监说要炒了我……
WHY?IN 和 NOT IN 是比较常用的关键字,为什么要尽量避免呢?1、效率低项目中遇到这么个情况:t1表 和 t2表 都是150w条数据,600M的样子,都不算大。但是这样一句查询 ↓select *...【详细内容】
2024-03-18  dbaplus社群    Tags:SQL   点击:(5)  评论:(0)  加入收藏
应对慢SQL的致胜法宝:7大实例剖析+优化原则
大促备战,最大的隐患项之一就是慢SQL,对于服务平稳运行带来的破坏性最大,也是日常工作中经常带来整个应用抖动的最大隐患,在日常开发中如何避免出现慢SQL,出现了慢SQL应该按照什...【详细内容】
2024-03-14  京东云开发者    Tags:慢SQL   点击:(4)  评论:(0)  加入收藏
过去一年,我看到了数据库领域的十大发展趋势
作者 | 朱洁策划 | 李冬梅过去一年,行业信心跌至冰点2022 年中,红衫的一篇《适应与忍耐》的报告,对公司经营提出了预警,让各个公司保持现金流,重整团队,想办法增加盈利。这篇报告...【详细内容】
2024-03-12    InfoQ  Tags:数据库   点击:(24)  评论:(0)  加入收藏
SQL优化的七个方法,你会哪个?
一、插入数据优化 普通插入:在平时我们执行insert语句的时候,可能都是一条一条数据插入进去的,就像下面这样。INSERT INTO `department` VALUES(1, '研发部(RD)', &#39...【详细内容】
2024-03-07  程序员恰恰  微信公众号  Tags:SQL优化   点击:(19)  评论:(0)  加入收藏
站内最新
站内热门
站内头条