您当前的位置:首页 > 电脑百科 > 数据库 > 百科

你真的能搞明白Hive与数据库区别吗?

时间:2023-06-26 14:44:21  来源:  作者:尚硅谷教育

Hive 采用了类似SQL 的查询语言 HQL (Hive Query Language),因此很容易将 Hive 理解为数据库。其实Hive 是为数据仓库设计的,是数据仓库的客户端,所以要搞清楚Hive与数据库的区别,只要我们搞清楚数据仓库和数据库的区别就可以了。

一、概念

数据库其实是一种逻辑概念,用来存放各种数据(通常数据库指关系数据库),而数据仓库是数据库概念的升级。换句话说,数据仓库可以理解为多个数据库的集合,也是由一张一张的数据表组成的,可以从以下方面区分理解。

从逻辑上理解:数据库和数据仓库没有区别,都是用来存储数据的。

从数据量来说:数据仓库要比数据库数据量体积庞大得多,通常数据仓库是GB级别(百万行数据)大小,而数据仓库则是TB级别甚至是PB级别。

从用途上来看:数据库主要用于业务平台的事务处理(不同业务平台有各自的数据库),而数据仓库主要用于海量数据分析。

二、设计原则

关系数据库一般情况下遵循范式设计,目前关系数据库有六种范式,即第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯−科德范式(BCNF)、第四范式(4NF)和第五范式(5NF,又称完美范式)。通常设计只需满足3NF规范即可。3NF范式主要要求包括如下:

  • 表内的每一个值都只能表达一个意思。
  • 表内的每一行都有唯一的主键。
  • 表内的每一行的非主键不应该依赖于其它字段信息。

数据仓库设计原则要考虑的因素较多,从访问性能、数据成本、使用成本、数据质量、扩展性来考虑。简单概括如下:

  • 数据产出稳定并且有保障
  • 保证数据干净,数据质量
  • 数据要涵盖的业务足够广
  • 数据构成体系足够透明

由此数据仓库设计采用范式+维度设计,从而达到全局数据分析的目的。

三、功能实现

关系数据库通过数据库软件来实现,主流的关系数据库软件有SQL Server、Oracle、MySQL、DB2等,主要用于业务事务的处理。

数据仓库并不是基于某个软件来实现,而是基于Hadoop生态来构建的。数据存储基于HDFS来实现分布式文件存储,通过Sqoop、Maxwell、Datax来实现数据仓库的数据导入导出,通过Hive、Spark、Flink来实现数据挖掘分析,从而达到辅助企业做决策。

四、数据体现

关系数据库通常服务于企业的业务平台,每个业务平台都有各自的关系数据库及其对应的表,各业务平台之间是独立且分离的。表中保存的是与业务相关的数据,反应了与业务相关数据的动态情况,记录地是业务目前的状态。

数据仓库的数据保存地是各个业务平台的一个或者多个数据库或者文件,比如说像MySQL、redisExcel文本文件、各业务平台日志文件等等,可以简单理解为很多个业务平台的数据往数据仓库输送,是各种数据的一个集合体。多个业务平台输入的数据都会被保存下来,一般情况不会删除掉,这样也就体现出数据仓库中的数据是有历史轨迹的,数据量体积相对关系数据库更加庞大,这也是与关系数据库的不同之处。

五、总结

数据仓库本质也是数据库,这是它们在概念上相同之处,不同点体现在使用用途、数据量存储方面。从软件的实现及操作方面也就有明显区别,比如关系数据库支持增删改操作,且对交互要求高;数据仓库通常是一次写入多次读取,不支持修改和删除,对交互要求不高。



Tags:Hive   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
一文搞明白Hive与数据库区别
Hive 采用了类似SQL 的查询语言 HQL (Hive Query Language),因此很容易将 Hive 理解为数据库。其实Hive 是为数据仓库设计的,是数据仓库的客户端,所以要搞清楚Hive与数据库的区...【详细内容】
2023-11-02  Search: Hive  点击:(186)  评论:(0)  加入收藏
MySQL到TiDB:Hive Metastore横向扩展之路
一、背景大数据元数据服务Hive Metastore Service(以下简称HMS),存储着数据仓库中所依赖的所有元数据并提供相应的查询服务,使得计算引擎(Hive、Spark、Presto)能在海量数据中准确...【详细内容】
2023-09-28  Search: Hive  点击:(334)  评论:(0)  加入收藏
十分钟掌握Doris,超越Hive、Elasticsearch和PostgreSQL
以前,数据仓库通常由Apache Hive、MySQL、Elasticsearch和PostgreSQL组成。它们支持数据仓库的数据计算和数据存储层: 数据计算:Apache Hive作为计算引擎。 数据存储:MySQL为Dat...【详细内容】
2023-09-27  Search: Hive  点击:(225)  评论:(0)  加入收藏
你真的能搞明白Hive与数据库区别吗?
Hive 采用了类似SQL 的查询语言 HQL (Hive Query Language),因此很容易将 Hive 理解为数据库。其实Hive 是为数据仓库设计的,是数据仓库的客户端,所以要搞清楚Hive与数据库的区...【详细内容】
2023-06-26  Search: Hive  点击:(195)  评论:(0)  加入收藏
【大数据】Hive Join 的原理与机制
一、概述Hive是一个基于Hadoop的数据仓库解决方案,它提供了类似于SQL的查询语言,称为HiveQL,用于处理结构化数据。在Hive中,JOIN操作用于将两个或多个表中的数据连接在一起,以便...【详细内容】
2023-05-08  Search: Hive  点击:(124)  评论:(0)  加入收藏
Hive DDL 操作与视图讲解
一、概述Hive是建立在Hadoop上的数据仓库工具,它允许用户通过类SQL的语法来查询和管理数据。在Hive中,DDL(数据定义语言)和视图操作是非常常见的。 1)表和视图关系表和视图都是数...【详细内容】
2023-05-06  Search: Hive  点击:(148)  评论:(0)  加入收藏
【大数据】Hive 分区和分桶的区别及示例讲解
一、概述在大数据处理过程中,Hive是一种非常常用的数据仓库工具。Hive分区和分桶是优化Hive性能的两种方式,它们的区别如下:1、分区概述Hive分区是把数据按照某个属性分成不同...【详细内容】
2023-05-04  Search: Hive  点击:(159)  评论:(0)  加入收藏
Hive 和 Spark 分区策略剖析
一、概述随着技术的不断的发展,大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark,它们在分区策略...【详细内容】
2023-03-30  Search: Hive  点击:(147)  评论:(0)  加入收藏
比Hive快十倍的大数据查询利器,你知道吗?
目前最流行的大数据查询引擎非hive莫属,它是基于MR的类SQL查询工具,会把输入的查询SQL解释为MapReduce,能极大的降低使用大数据查询的门槛, 让一般的业务人员也可以直接对大数据...【详细内容】
2023-03-07  Search: Hive  点击:(204)  评论:(0)  加入收藏
大多数开发人员都弄错的Hive与MapReduce小文件合并问题
因为设置上面四个参数,看上去规定了map结束,MR结束合并文件,如果文件平均小于smallfiles.avgsize启动一个新的MRj进行文件的二次合并。如果启动mr合并文件,没有问题。0.背景近来...【详细内容】
2023-01-31  Search: Hive  点击:(214)  评论:(0)  加入收藏
▌简易百科推荐
向量数据库落地实践
本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见: https://github.com/vearch/zh_docs/blob/v3.3.X/do...【详细内容】
2024-04-03  京东云开发者    Tags:向量数据库   点击:(5)  评论:(0)  加入收藏
原来 SQL 函数是可以内联的!
介绍在某些情况下,SQL 函数(即指定LANGUAGE SQL)会将其函数体内联到调用它的查询中,而不是直接调用。这可以带来显著的性能提升,因为函数体可以暴露给调用查询的规划器,从而规划器...【详细内容】
2024-04-03  红石PG  微信公众号  Tags:SQL 函数   点击:(4)  评论:(0)  加入收藏
如何正确选择NoSQL数据库
译者 | 陈峻审校 | 重楼Allied Market Research最近发布的一份报告指出,业界对于NoSQL数据库的需求正在持续上升。2022年,全球NoSQL市场的销售额已达73亿美元,预计到2032年将达...【详细内容】
2024-03-28    51CTO  Tags:NoSQL   点击:(14)  评论:(0)  加入收藏
为什么数据库连接池不采用 IO 多路复用?
这是一个非常好的问题。IO多路复用被视为是非常好的性能助力器。但是一般我们在使用DB时,还是经常性采用c3p0,tomcat connection pool等技术来与DB连接,哪怕整个程序已经变成以...【详细内容】
2024-03-27  dbaplus社群    Tags:数据库连接池   点击:(13)  评论:(0)  加入收藏
八个常见的数据可视化错误以及如何避免它们
在当今以数据驱动为主导的世界里,清晰且具有洞察力的数据可视化至关重要。然而,在创建数据可视化时很容易犯错误,这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可...【详细内容】
2024-03-26  DeepHub IMBA  微信公众号  Tags:数据可视化   点击:(7)  评论:(0)  加入收藏
到底有没有必要分库分表,如何考量的
关于是否需要进行分库分表,可以根据以下考量因素来决定: 数据量和负载:如果数据量巨大且负载压力较大,单一库单一表可能无法满足性能需求,考虑分库分表。 数据增长:预估数据增长...【详细内容】
2024-03-20  码上遇见你  微信公众号  Tags:分库分表   点击:(15)  评论:(0)  加入收藏
在 SQL 中写了 in 和 not in,技术总监说要炒了我……
WHY?IN 和 NOT IN 是比较常用的关键字,为什么要尽量避免呢?1、效率低项目中遇到这么个情况:t1表 和 t2表 都是150w条数据,600M的样子,都不算大。但是这样一句查询 ↓select *...【详细内容】
2024-03-18  dbaplus社群    Tags:SQL   点击:(6)  评论:(0)  加入收藏
应对慢SQL的致胜法宝:7大实例剖析+优化原则
大促备战,最大的隐患项之一就是慢SQL,对于服务平稳运行带来的破坏性最大,也是日常工作中经常带来整个应用抖动的最大隐患,在日常开发中如何避免出现慢SQL,出现了慢SQL应该按照什...【详细内容】
2024-03-14  京东云开发者    Tags:慢SQL   点击:(5)  评论:(0)  加入收藏
过去一年,我看到了数据库领域的十大发展趋势
作者 | 朱洁策划 | 李冬梅过去一年,行业信心跌至冰点2022 年中,红衫的一篇《适应与忍耐》的报告,对公司经营提出了预警,让各个公司保持现金流,重整团队,想办法增加盈利。这篇报告...【详细内容】
2024-03-12    InfoQ  Tags:数据库   点击:(27)  评论:(0)  加入收藏
SQL优化的七个方法,你会哪个?
一、插入数据优化 普通插入:在平时我们执行insert语句的时候,可能都是一条一条数据插入进去的,就像下面这样。INSERT INTO `department` VALUES(1, '研发部(RD)', &#39...【详细内容】
2024-03-07  程序员恰恰  微信公众号  Tags:SQL优化   点击:(20)  评论:(0)  加入收藏
站内最新
站内热门
站内头条