全面解析大数据框架Hadoop主要模块

时间：2019-04-24 11:15:45 来源：作者：

Hadoop Distributed File System (HDFS): 分布式文件系统，提供对应用程序数据的高吞吐量，高伸缩性，高容错性的访问。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。

Hadoop YARN: 任务调度和集群资源管理。

Hadoop MapReduce: 基于YARN的大型数据集并行处理系统。是一种计算模型，用以进行大数据量的计算。Hadoop的MapReduce实现，和Common、HDFS一起，构成了Hadoop发展初期的三个组件。MapReduce将应用划分为Map和Reduce两个步骤，其中Map对数据集上的独立元素进行指定的操作，生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约，以得到最终结果。MapReduce这样的功能划分，非常适合在大量计算机组成的分布式并行环境里进行数据处理。

其他模块：

Ambari：是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。Ambari还提供了一个用于查看集群健康状况的仪表板，例如散热图，以及可视化查看MapReduce，Pig和Hive应用程序以及以用户友好的方式诊断其性能特征的功能。也是5个顶级hadoop管理工具之一。

Avro：数据序列化系统，由Doug Cutting牵头开发，是一个数据序列化系统。类似于其他序列化机制，Avro可以将数据结构或者对象转换成便于存储和传输的格式，其设计目标是用于支持数据密集型应用，适合大规模数据的存储与交换。Avro提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC和简单动态语言集成等功能。

Cassandra：可扩展的多主数据库，没有单点故障。是一套开源分布式NoSQL数据库系统。它最初由Facebook开发，用于储存收件箱等简单格式数据，集googleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身Facebook于2008将 Cassandra 开源，此后，由于Cassandra良好的可扩展性，被Digg、Twitter等知名Web 2.0网站所采纳，成为了一种流行的分布式结构化数据存储方案。

Cassandra是一个混合型的非关系的数据库，类似于Google的BigTable。其主要功能比Dynamo (分布式的Key-Value存储系统)更丰富，但支持度却不如文档存储MongoDB(介于关系数据库和非关系数据库之间的开源产品，是非关系数据库当中功能最丰富，最像关系数据库的。支持的数据结构非常松散，是类似json的bjson格式，因此可以存储比较复杂的数据类型)。Cassandra最初由Facebook开发，后转变成了开源项目。它是一个网络社交云计算方面理想的数据库。以Amazon专有的完全分布式的Dynamo为基础，结合了Google BigTable基于列族(Column Family)的数据模型。P2P去中心化的存储。很多方面都可以称之为Dynamo 2.0。

Chukwa：用于管理大型分布式系统的数据收集系统(2000+以上的节点，系统每天产生的监控数据量在T级别)。它构建在Hadoop的HDFS和MapReduce基础之上，继承了Hadoop的可伸缩性和鲁棒性。Chukwa包含一个强大和灵活的工具集，提供了数据的生成、收集、排序、去重、分析和展示等一系列功能，是Hadoop使用者、集群运营人员和管理人员的必备工具。

全面解析大数据框架Hadoop主要模块
Hbase：是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同，HBase采用了BigTable的数据模型：增强的稀疏排序映射表(Key/Value)，其中，键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问，同时，HBase中保存的数据可以使用MapReduce来处理，它将数据存储和并行计算完美地结合在一起。

Hive：是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

Hive是Hadoop中的一个重要子项目，最早由Facebook设计，是建立在Hadoop基础上的数据仓库架构，它为数据仓库的管理提供了许多功能，包括：数据ETL(抽取、转换和加载)工具、数据存储管理和大型数据集的查询和分析能力。Hive提供的是一种结构化数据的机制，定义了类似于传统关系数据库中的类SQL语言：Hive QL，通过该查询语言，数据分析人员可以很方便地运行数据分析业务。

Mahout：Apache旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘。此外，通过使用 Apache Hadoop 库，Mahout 可以有效地扩展到云中。

Mahout起源于2008年，最初是Apache Lucent的子项目，它在极短的时间内取得了长足的发展，现在是Apache的顶级项目。Mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout现在已经包含了聚类、分类、推荐引擎(协同过滤)和频繁集挖掘等广泛使用的数据挖掘方法。除了算法，Mahout还包含数据的输入/输出工具、与其他存储系统(如数据库、MongoDB 或Cassandra)集成等数据挖掘支持架构。

Pig：运行在Hadoop上，是对大型数据集进行分析和评估的平台。它简化了使用Hadoop进行数据分析的要求，提供了一个高层次的、面向领域的抽象语言：Pig Latin。通过Pig Latin，数据工程师可以将复杂且相互关联的数据分析任务编码为Pig操作上的数据流脚本，通过将该脚本转换为MapReduce任务链，在Hadoop上执行。和Hive一样，Pig降低了对大型数据集进行分析和评估的门槛。

Apache Pig 是一个高级过程语言，适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询，Pig 可以简化 Hadoop 的使用。

用MapReduce进行数据分析。当业务比较复杂的时候，使用MapReduce将会是一个很复杂的事情，比如你需要对数据进行很多预处理或转换，以便能够适应MapReduce的处理模式。另一方面，编写MapReduce程序，发布及运行作业都将是一个比较耗时的事情。Pig的出现很好的弥补了这一不足。Pig能够让你专心于数据及业务本身，而不是纠结于数据的格式转换以及MapReduce程序的编写。本质是上来说，当你使用Pig进行处理时，Pig本身会在后台生成一系列的MapReduce操作来执行任务，但是这个过程对用户来说是透明的。

Spark： Hadoop数据快速通用的计算引擎。 Spark提供了一个简单的编程模型，支持各种应用，包括ETL，机器学习，流处理和图形计算。

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, machines, and People Lab) 开发，可用来构建大型的、低延迟的数据分析应用程序。

Tez：用于构建高性能批处理和交互式数据处理应用程序的可扩展框架，由Apache Hadoop中的YARN协调。 Tez通过大幅度提高其速度来改进MapReduce范式，同时保持MapReduce扩展到PB级数据的能力。支持DAG(Database AvAIlability Group 数据库可用性组)作业的计算框架，它直接源于MapReduce框架，核心思想是将Map和Reduce两个操作进一步拆分，即Map被拆分成Input、Processor、Sort、Merge和Output， Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等，这样，这些分解后的元操作可以任意灵活组合，产生新的操作，这些操作经过一些控制程序组装后，可形成一个大的DAG作业。

ZooKeeper： 一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。

ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。

在分布式系统中如何就某个值(决议)达成一致，是一个十分重要的基础问题。ZooKeeper作为一个分布式的服务框架，解决了分布式计算中的一致性问题。在此基础上，ZooKeeper可用于处理分布式应用中经常遇到的一些数据管理问题，如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。ZooKeeper常作为其他Hadoop相关项目的主要组件，发挥着越来越重要的作用。

Tags：点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

国家统计局：3月份各线城市商品住宅销售价格环比降幅收窄

国家统计局城市司首席统计师王中华解读2024年3月份商品住宅销售价格变动情况统计数据。2024年3月份，70个大中城市新建商品住宅和二手住宅成交量比前期有所上升，各线城市商品住...【详细内容】

2024-04-16　　Search: 大数据 Hadoop 点击:(2)　　评论:(0)　　加入收藏

2024一季度GDP同比增长5.3%

4月16日，国家统计局发布数据显示，初步核算，一季度国内生产总值296299亿元，按不变价格计算，同比增长5.3%，比上年四季度环比增长1.6%。#GDP#（来源：人民日报记者刘志强）...【详细内容】

2024-04-16　　Search: 大数据 Hadoop 点击:(2)　　评论:(0)　　加入收藏

一季度全国城镇调查失业率5.2%，同比微降

4月16日上午，记者从国新办举行的新闻发布会上获悉，一季度，我国就业形势总体稳定，城镇调查失业率微降。根据国家统计局公布，一季度，全国城镇调查失业率平均值为5.2%，比上年同期下降0...【详细内容】

2024-04-16　　Search: 大数据 Hadoop 点击:(2)　　评论:(0)　　加入收藏

今年强基计划迎来哪些新变化？

羊城晚报记者孙唯实习生吴东飞张梓欣邱晨希目前，全国各高校的“强基计划”已经陆续开始。“强基计划”主要选拔有志于服务国家重大战略需求且综合素质优秀或基础学科拔...【详细内容】

2024-04-16　　Search: 大数据 Hadoop 点击:(2)　　评论:(0)　　加入收藏

注意！这种微信群赶紧退

9.9元包年看剧加入推广还能挣钱日前，有网友在社交平台分享这种“赚钱新路子”社交平台上发布的“9.9元畅享看短剧”帖子。记者调查发现此项目为一条通过社交媒体收费进微信群...【详细内容】

2024-04-16　　Search: 大数据 Hadoop 点击:(3)　　评论:(0)　　加入收藏

网络空间不容造假引流的剧本横飞

画里有话网络空间不容造假引流的剧本横飞图/王鹏文/张西流今年春节假期，“秦朗巴黎丢寒假作业”事件曾占据多个热搜榜单，众多自媒体竞相跟进炒作，衍生出“秦朗舅舅”“西场小...【详细内容】

2024-04-16　　Search: 大数据 Hadoop 点击:(2)　　评论:(0)　　加入收藏

“Thurman猫一杯”被封：一场流量裹挟下的舆论闹剧

‘一个谎言的出现，要用无数个谎言去掩盖。如果让谎言长期占据着过多的社会资源，那么现实版楚门的世界，将在我们每个人的生活中上演。’近日，国内顶流网红之一的“Thur...【详细内容】

2024-04-16　　Search: 大数据 Hadoop 点击:(2)　　评论:(0)　　加入收藏

找工作总遇“已读不回”？媒体：别把职场空窗期当真空期

“有的面试官说我的‘空窗期’太长，不符合他们的要求。”两年前，95后缪蔡蔡从一家互联网公司辞职，当时她想创业，加上男友找工作要换城市，就选择了“裸辞”。离职后，她曾...【详细内容】

2024-04-16　　Search: 大数据 Hadoop 点击:(2)　　评论:(0)　　加入收藏

起底助眠“新黄色”：说情话、卖小课……虚拟“枕边女友”月入三万

“亲爱的，靠近一点，我抱着你”“想听脸红小剧情的话就刷小礼物”……深夜12点，名为“枕边女友”的直播间里，嗲声嗲气的“女友腔”配上男女亲热漫画图，吸引着上千名网...【详细内容】

2024-04-16　　Search: 大数据 Hadoop 点击:(3)　　评论:(0)　　加入收藏

光明日报：孩子用AI写作业，该担忧吗？

随着科技的发展，人工智能技术不断得到拓展与完善。而今，文字输出、信息检索、方案优化，乃至居家生活，越来越多的人已经离不开AI的帮助。与此同时，根据媒体报道，近期，一些“独具慧眼...【详细内容】

2024-04-16　　Search: 大数据 Hadoop 点击:(3)　　评论:(0)　　加入收藏

▌简易百科推荐

大数据杀熟何时告别“人人喊打却无可奈何”？

2月7日郑州飞往珠海的航班，不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历，引发社会广泛关注——用3个账号买同一航班同...【详细内容】

2024-01-30　　　　中国青年网　　Tags:大数据杀熟　点击:(34)　　评论:(0)　　加入收藏

简易百科：到底什么是大数据？

随着互联网的快速发展，大数据已经成为了当今社会最热门的话题之一。那么，到底什么是大数据呢？首先，我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】

2024-01-30　　　　简易百科　　Tags:大数据　点击:(40)　　评论:(0)　　加入收藏

数据采集新篇章：AI与大模型的融合应用

开篇在AIGC（人工智能与通用计算）应用中，大型语言模型（LLM）占据着举足轻重的地位。这些模型，如GPT和BERT系列，通过处理和分析庞大的数据集，已经极大地推动了自然语言理解和生成的边界...【详细内容】

2024-01-17　　崔皓　　51CTO　　Tags:数据采集　点击:(54)　　评论:(0)　　加入收藏

挑战 Spark 和 Flink？大数据技术栈的突围和战争

十年的轮回，正如大数据的发展一般，它既是一个轮回的结束，也是崭新的起点。大数据在过去的二十年中蓬勃发展，从无到有，崛起为最具爆炸性的技术领域之一，逐渐演变成为每个企业不可或...【详细内容】

2024-01-17　　InfoQ　　　　Tags:大数据　点击:(40)　　评论:(0)　　加入收藏

分布式存储系统在大数据处理中扮演着怎样的角色？

如果存储节点本身可以定制，则通常会让其支持部分计算能力，以利用数据的亲和性，将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储，无法定制，则通常会将数据在计...【详细内容】

2023-12-19　　木鸟杂记　　微信公众号　　Tags:大数据　点击:(49)　　评论:(0)　　加入收藏

大数据如何实时拯救生命：车联网的数据分析有助预防交通事故

译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大，尤其是当电动汽车成为汽车市场新的增长引擎。问题是：用户的数据平台准备...【详细内容】

2023-12-19　　　　51CTO　　Tags:大数据　点击:(43)　　评论:(0)　　加入收藏

利用生成对抗网络进行匿名化数据处理

在互联网时代，数据日益成为人们的生产资料。然而，在某些情况下，我们需要分享数据，但又需要保护个人隐私。这时，匿名化技术就显得尤为重要。本文将介绍利用生成对抗网络进行匿名化...【详细内容】

2023-12-18　　技巧达人小影　　　　Tags:数据处理　点击:(57)　　评论:(0)　　加入收藏

盘点那些常见的数据中心类型，你知道几个？

在数字化潮流的浪潮下，数据中心如同企业的神经系统，关系到业务的稳健运转。而在这个巨大的网络中，各种数据中心类型如雨后春笋般崭露头角。从企业级的个性至云数据中心的虚拟化...【详细内容】

2023-12-07　　数据中心之家　　微信公众号　　Tags:数据中心　点击:(71)　　评论:(0)　　加入收藏

数据中心的七个关键特征

随着信息技术的不断演进，数据中心的可靠性、可扩展性、高效性、安全性、灵活性、管理性和可持续性成为业界探讨的焦点。下面让我们一同深入剖析这些关键特征，了解它们是如何影...【详细内容】

2023-12-06　　数据中心之家　　微信公众号　　Tags:数据　点击:(65)　　评论:(0)　　加入收藏

什么是数据解析？将数据转化为更好的决策

什么是数据解析？数据解析是一门专注于从数据中获取洞察力的学科。它包含数据分析（data analysis）和管理的流程、工具和技术，包括数据的收集、组织和存储。数据解析的主要目的是...【详细内容】

2023-12-06　　计算机世界　　　　Tags:数据解析　点击:(67)　　评论:(0)　　加入收藏

推荐资讯

国家统计局：3月份各线	2024一季度GDP同比增
工业机械臂的进化史：优	一季度全国城镇调查失
今年强基计划迎来哪些	注意！这种微信群赶紧退
网络空间不容造假引流	“Thurman猫一杯”被