您当前的位置:首页 > 电脑百科 > 程序开发 > 架构

大数据架构设计与数据计算流程

时间:2023-03-08 11:53:34  来源:今日头条  作者:天之道居

大数据架构设计

Hadoop有3个核心组件:分布式文件系统HDFS;分布式运算编程框架MapReduce;分布式资源调度平台YARN。

HBase,Hadoop dataBase,基于HDFS的NoSQL数据库,面向列式的内存存储,定期将内存数据刷新到磁盘(刷盘)。使用LSM树结构存储结构。不支持SQL、没有表关系、无法join操作,不支持事务(仅支持行级事务)、不支持回滚。MySQL4张表在HBase对应1个表、4个列。

HBase列式内存存储

离线计算数据流程

离线计算数据流程

实时计算数据流程

实时计算数据流程

专业术语

OLTP,联机事务处理,Online Transaction Processing。

OLAP,联机实时分析,Online Analytical Processing。

HTAP,混合事务和分析处理,Hybrid Transaction & Analytical Processing。

MPP,大规模并行处理,Massively Parallel Processing。

数据仓库与分层

ODS 数据接入层:所有的数据首先接入ODS层,数据复杂多样,粒度最粗。

DIM 维表层:根据维度及其属性将数据平台上构建的物理化的表,采用宽表设计的原则。

DWD 数据仓库层:经过ODS清洗、处理后的一致性、准确的、干净的数据。

DWS 数据集市层:该层数据是面向主题来组织的轻度汇总级的数据。

DWT 数据应用层: 为了满足具体的分析需求而构建的高度汇总的数据。

ADS 层:为各种报表提供数据。

大数据组件

存储框架

HBase、TiDB、ClickHouse、InfluxDB(时序数据库)、GraphQL、Elasticsearch、Apache Doris等。

数据同步转换组件

Sqoop、canal、DataX、maxwell、Debezium、Flink-CDC、Kettle、StreamSets。

离线批量计算分析引擎

MapReduce、Yarn、Hive、Spark。(Hive无物理存储功能、逻辑表,定义元数据)

实时流式计算引擎

Flink、Storm、Spark Streaming。

存储层

HDFS、Apache Ozone、S3、OSS、Ceph、GlusterFS。

数据湖

Apache Hudi、Apache Iceberg、Delta Lake。

任务调度工具

Azkaban、Airflow、Oozie、Dolphin、Scheduler。

ETL数据抽取工具

Kettle、StreamSets、Apache NiFi、Airbyte。

Hodoop集群管理工具、大数据运维

Ambari、CDH(Cloudera版本)、HDP(Hortonwork版)、CDP(Cloudera和Hortonwork合并版本,收费)、USDP(国产UCloud版)、CRH(基于Apache Ambari+Apache BigTop)、TDH(星环收费闭源)。



Tags:大数据架构   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
大数据架构设计Hadoop有3个核心组件:分布式文件系统HDFS;分布式运算编程框架MapReduce;分布式资源调度平台YARN。HBase,Hadoop dataBase,基于HDFS的NoSQL数据库,面向列式的内存存...【详细内容】
2023-03-08  Tags: 大数据架构  点击:(0)  评论:(0)  加入收藏
前言我们可以从java.io.InputStream类中看到,抽象出一个read方法,用来读取已经打开的InputStream实例中的字节,每次调用read方法,会读取一个字节数据,该方法抽象定义,如下所示:publ...【详细内容】
2021-04-09  Tags: 大数据架构  点击:(268)  评论:(0)  加入收藏
介绍在使用数据获取业务价值的公司中,尽管您可能不会一直以数据科学技能为荣,但始终可以很好地管理数据基础架构。 每个人都希望将数据存储在可访问的位置,妥善清理并定期更新...【详细内容】
2020-10-22  Tags: 大数据架构  点击:(166)  评论:(0)  加入收藏
1. 目标在本教程中,我们将讨论Apache Spark和Apache Flink之间的比较。Apache spark和Apache Flink都是用于大规模批处理和流处理的开源平台,为分布式计算提供容错和数据分布...【详细内容】
2020-07-31  Tags: 大数据架构  点击:(203)  评论:(0)  加入收藏
今天我们来谈谈离线数仓与实时数仓架构设计,首先从传统数仓开始,数仓架构演进 数仓架构演进 离线大数据架构 离线大数据架构 离线数仓分层 离线数仓分层 离线大数据架构典型案...【详细内容】
2020-04-29  Tags: 大数据架构  点击:(280)  评论:(0)  加入收藏
数据分析工作虽然隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度...【详细内容】
2019-11-01  Tags: 大数据架构  点击:(194)  评论:(0)  加入收藏
▌简易百科推荐
微信朋友圈是一种社交媒体应用,主要功能是让用户分享图片、视频和文字等内容,并与好友互动。一个基本的微信朋友圈设计方案:数据库设计微信朋友圈需要存储大量的图片和视频等...【详细内容】
2023-03-09  热爱生活的阿德哥  今日头条  Tags:架构   点击:(3)  评论:(0)  加入收藏
Spring Boot 是一个基于 Spring 框架的快速开发框架,而 RabbitMQ 和 RocketMQ 则是常用的消息队列中间件。下面是它们常用的一些用法和场景。 订单处理在电商等系统中,下单后...【详细内容】
2023-03-09  摆脱格子衫  今日头条  Tags:SpringBoot   点击:(2)  评论:(0)  加入收藏
自从树莓派推出以来,创造者们已经在这个简陋的袖珍芯片系统上开展了无数的计算机科学教育项目。其中包括许多探索低成本树莓派集群的项目,以介绍 并行和分布式计算Parallel an...【详细内容】
2023-03-09   Linux中国  微信公众号  Tags:分布式计算   点击:(2)  评论:(0)  加入收藏
大数据架构设计Hadoop有3个核心组件:分布式文件系统HDFS;分布式运算编程框架MapReduce;分布式资源调度平台YARN。HBase,Hadoop dataBase,基于HDFS的NoSQL数据库,面向列式的内存存...【详细内容】
2023-03-08  天之道居  今日头条  Tags:大数据架构   点击:(0)  评论:(0)  加入收藏
大家好,我是树哥。相信大家在面试的时候会被问到:Kafka 为啥会这么快?其中我们都会说是因为 zero-copy 的缘故,但 zero-copy 中其实有很多种实现方式,例如:mmap + write、sendfile...【详细内容】
2023-03-07  树哥聊编程  微信公众号  Tags:map   点击:(9)  评论:(0)  加入收藏
在分布式系统中,接口幂等性是一个非常重要的概念,它保证了在同样的条件下,同一请求的多次执行所产生的效果都是相同的。在实际开发中,为了防止重复提交或者重复操作带来的问题,我...【详细内容】
2023-03-07    今日头条  Tags:SpringBoot   点击:(9)  评论:(0)  加入收藏
使用了ZooKeeper的临时节点来协调各个工作节点,如果一个工作节点挂掉了,它的临时节点也会被删除,这样可以保证每个工作节点获得的ID是唯一的。在分布式系统中,生成全局唯一ID是...【详细内容】
2023-03-06  德哥很ok  微信公众号  Tags:分布式   点击:(7)  评论:(0)  加入收藏
近来,chatGPT再一次激发了人们对通用人工智能的热情,甚至到了人人都在谈AIGC的地步。然而,大模型对数据丰富性的依赖更加严重,面向机器学习以及深度学习的数据架构又是怎样的呢...【详细内容】
2023-03-06  喔家ArchiSelf  微信公众号  Tags:数据架构   点击:(3)  评论:(0)  加入收藏
一、前言小编最近一直在研究关于分库分表的东西,前几天docker安装了mycat实现了分库分表,但是都在说mycat的bug很多。很多人还是倾向于shardingsphere,其实他是一个全家桶,有JDB...【详细内容】
2023-03-05  臭猪比  今日头条  Tags:SpringBoot   点击:(9)  评论:(0)  加入收藏
在Spring Boot中实现接口数据的加密和解密,可以使用对称加密算法,例如AES算法,将请求参数和响应结果进行加密和解密。以下是一种示例实现方案: 添加依赖在pom.xml文件中添加以...【详细内容】
2023-03-03  摆脱格子衫  今日头条  Tags:SpringBoot   点击:(4)  评论:(0)  加入收藏
站内最新
站内热门
站内头条