Hadoop 及Spark 分布式HA运行环境搭建

时间：2023-02-21 10:59:59 来源：京东云企业管家作者：

欲善其事必先利其器，在深入学习大数据相关技术之前，先手动从0到1搭建一个属于自己的本地Hadoop和Spark运行环境，对于继续研究大数据生态圈各类技术具有重要意义。本文旨在站在研发的角度上通过手动实践搭建运行环境，文中不拖泥带水过多讲述基础知识，结合Hadoop和Spark最新版本，帮助大家跟着步骤一步步实践环境搭建。

1. 总体运行环境概览

（1）软件包及使用工具版本介绍表：

（2）环境部署与分布介绍表：

（3）进程介绍：（1表示进程存在，0表示不存在）

2. 系统基础环境准备

步骤1：虚拟机中linux系统安装（略）

VirtualBox中安装centos7操作系统

步骤2： CentOS7基础配置

（1）配置主机的hostname

命令： vim/etc/hostname

（2）配置hosts，命令vim /etc/hosts

（3）安装JDK

命令：

rpm -qa | grep JAVA 查看是否有通过rpm方式安装的java

java -version 查看当前环境变量下的java 版本

1） filezilla上传安装包，tar -zxvf

jdk-8u212-linux-x64.tar.gz 解压

2） bin目录的完整路径：

/usr/local/jdk/jdk1.8.0_212/bin

3） vim /etc/profile 配置jdk环境变量

（4）复制主机：

1）利用VirtualBox复制功能复制两台主机

2）命令：vi

/etc/sysconfig.NETwork-scripts/ifcfg-eth0，设置相应的网络信息

3）三台主机IP分别为： 192.168.0.20/21/22

（5）配置三台主机ssh无密码登录（略）

（6）安装zookeeper

1） filezilla上传安装包，zookeeper-3.4.10.tar.gz 解压

2） bin目录的完整路径：

/usr/local/zookeeper/zookeeper-3.4.10/bin

3） vim /etc/profile 配置jdk环境变量

4） zookeeper的配置文件修改，zookeeper-3.4.10/conf/

5）执行命令从master节点复制配置到其他两个节点

6）每台机器zookeeper目录下新建一个data目录， data目录下新建一个myid文件，master主机存放标识值1；slave1主机标识值为2；slave3主机标识值为3

7）每台机器上命令：zkServer.sh start ，启动ZK，进程名：QuorumPeerMAIn

3. Hadoop安装与部署 3.1安装Hadoop

1）filezilla上传安装包，hadoop-3.3.4.tar.gz 解压

2）bin目录的完整路径： /usr/local/hadoop/hadoop-3.3.4/bin

3）vim /etc/profile 配置jdk环境变量

4）修改配置文件共6个： hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml和workers

文件1： hadoop-env.sh；增加jdk环境变量

文件2： core-site.xml；配置临时目录及zookeeper信息

文件3： hdfs-site.xml；配置hdfs信息

文件4： mapred-site.xml；配置mapreduce和dfs权限信息

文件5： yarn-site.xml；配置yarn资源调度信息

文件6: worker文件存放当前的worker节点名，复制到每一个虚拟机中

3.2启动Hadoop

1）使用命令： hadoop-daemon.sh start journalnode 启动journalnode 进程（每个节点执行）

2）使用命令： hadoop-daemon.sh start namenode 启动namenode 进程（master、slave1节点上执行）

3）使用命令：hadoop-daemon.sh start datanode 在所有节点上启动datanode 进程

4）使用命令：start-yarn.sh 在master上启动yarn

5）使用命令： hdfs zkfc -formatZK 在ZK上生成ha节点

6）使用命令： hadoop-daemon.sh start zkfc 启动 DFSZKFailoverController进程，在master节点执行

a. 访问HDFS的管理页面

http://192.168.0.20:50070 此处192.168.0.20为namenode节点的Active节点

http://192.168.0.21:50070 此处192.168.0.20为namenode节点的standby节点

3.3 验证HDFS使用

使用命令：hdfs dfs -ls / 查看HDFS中文件

使用命令：hdfs dfs -mkdir /input 在HDFS上创建目录

使用命令：hdfs dfs -put ./test.txt /input 将本地文件上传到HDFS指定目录

使用命令：hdfs dfs -get /input/test.txt ./tmp 将HDFS文件复制到本地目录

使用命令：hdfs dfs -text /input/test.txt 查看HDFS上的文本文件

web端浏览HDFS目录

3.4 验证MapReduce的wordcount案例

（1）先通过命令将带有文本内容的test2.txt文件上传到HDFS

（2）对HDFS上test2.txt文件执行wordcount统计，结果放回HDFS新目录，命令：

hadoop jar /usr/local/hadoop/hadoop-3.3.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /input/test2.txt /out

4. Spark安装与部署 3.1安装Scala

（1）安装scala

上传scala压缩包解压，使用命令：

scala -version 查看当前环境变量下的scala 版本

（2）拷贝scala目录和环境变量到其他两台机器

使用命令：

scp -r /usr/local/scala root@slave1:/usr/local/

scp /etc/profile root@slave1:/etc/profile

3.2安装Spark

（1）上传spark压缩包解压，修改配置文件

命令： vim

/usr/local/spark/spark-3.3.1/conf/spark-env.sh

（2）新建worker目录，写入master机器名称

3.3启动Spark

（1）在master的spark安装目录下启动spark

命令：

cd /usr/local/spark/spark-3.3.1/sbin

./start-all.sh

（2）在slave1同样目录启动master进程

命令：./start-master.sh

（3）访问spark管理页面ui

3.3 验证Spark的wordcount案例

（1）执行命令：

cd /usr/local/spark/spark-3.3.1/bin

./spark-shell --master spark://master:7077

（3）从HDFS读取数据执行自定义wordcount代码，结果写入HDFS，命令：

sc.textFile("hdfs://master:9000/input/test2.txt").flatMap(_.split(" ")).map(word=>(word,1)).reduceByKey(_+_).map(pair=>(pair._2,pair._1)).sortByKey(false).map(pair=>(pair._2,pair._1)).saveAsTextFile("hdfs://master:9000/spark_out")

（4）输出结果：

5. 后记

大数据技术日新月异，得益于互联网技术加持下的商业和工业模式变革。人们日益增长的对生活生产便捷性、数字化、智能化的需求，催生了数据爆炸式的增长，推动了大数据技术推陈出新。作为新时代的程序开发者，必须掌握一定的大数据基础知识才能适应时代的要求，本文只是一个引子，从自身实践的角度帮助初学者认识大数据，并基于此搭建自己属于自己的开发环境，希望大家能够在此基础上继续钻研有所建树。

作者：京东物流秦彪

Tags：Hadoop 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

在Linux系统中实现容器化的大规模数据分析平台：Hadoop和Spark

在Linux系统中实现容器化的大规模数据分析平台，我们可以利用Hadoop和Spark这两个强大的开源工具。Hadoop是一个分布式计算框架，适用于处理大规模数据集。它提供了分布式文件系...【详细内容】

2023-12-15　　Search: Hadoop 点击:(155)　　评论:(0)　　加入收藏

Hadoop高可用集群部署

背景生产中Hadoop分布式集群中可能存在着单点故障问题，如果Namenode宕机或是软硬件升级，集群将无法使用，所以进行搭建高可用的来消除单点故障。Hadoop介绍Hadoop集群一般为一个...【详细内容】

2023-11-07　　Search: Hadoop 点击:(296)　　评论:(0)　　加入收藏

Hadoop所有命令详解

FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统，scheme是...【详细内容】

2023-09-26　　Search: Hadoop 点击:(317)　　评论:(0)　　加入收藏

Hadoop运行环境搭建

1 虚拟机环境准备采用前面的章节的方式准备三台虚拟机： 1）ymm工具（1）使用yum安装需要虚拟机可以正常上网，yum安装前可以先测试下虚拟机联网情况[root@hadoop100 ~]# ping www.b...【详细内容】

2023-08-21　　Search: Hadoop 点击:(248)　　评论:(0)　　加入收藏

9个步骤，手把手教你在Windows上安装Hadoop

在 Microsoft Windows 上运行 Apache Hadoop 是比较繁琐的任务，在安装过程中会出现许多错误，最终，大多数用户放弃了通过 Windows 使用 Hadoop，并转而使用基于 Linux 的操作系统...【详细内容】

2023-05-24　　Search: Hadoop 点击:(32)　　评论:(0)　　加入收藏

Hadoop 及Spark 分布式HA运行环境搭建

欲善其事必先利其器，在深入学习大数据相关技术之前，先手动从0到1搭建一个属于自己的本地Hadoop和Spark运行环境，对于继续研究大数据生态圈各类技术具有重要意义。本文旨在站在...【详细内容】

2023-02-21　　Search: Hadoop 点击:(115)　　评论:(0)　　加入收藏

大数据基础架构Hadoop

导读：大数据正在成为经济社会发展的新的驱动力。随着云计算、移动互联网等网络新技术的应用和发展，社会信息化进程进入大数据时代，海量数据的产生与流转成为常态。而大数据技术...【详细内容】

2023-01-29　　Search: Hadoop 点击:(185)　　评论:(0)　　加入收藏

“后Hadoop时代”，大数据从业者如何应对新技术趋势带来的挑战?

作者 | 蔡芳芳采访嘉宾 | 刘京娟、贾扬清、王峰作为开源大数据项目的发端，Hadoop 兴起至今已经超过十五年。在过去这十数年里，开源大数据领域飞速发展，我们见证了多元化技术的...【详细内容】

2022-11-23　　Search: Hadoop 点击:(371)　　评论:(0)　　加入收藏

hadoop集群的搭建、完全分布式运行一看就会

前期准备模板机准备修改静态IPvim /etc/sysconfig/network-scripts/ifcfg-ens33TYPE="Ethernet"PROXY_METHOD="none"BROWSER_ONLY="no"BOOTPROTO="static" //这里改成stati...【详细内容】

2022-08-27　　Search: Hadoop 点击:(412)　　评论:(0)　　加入收藏

大数据Hadoop之——Zookeeper鉴权认证

一、Zookeeper概述与安装Zookeeper概述与安装请参考我之前的文章：分布式开源协调服务——ZookeeperZookeeper的安装方式有两种，两种方式都会讲，其实大致配置都是一样...【详细内容】

2022-07-15　　Search: Hadoop 点击:(3147)　　评论:(0)　　加入收藏

▌简易百科推荐

Netflix 是如何管理 2.38 亿会员的

作者 | Surabhi Diwan译者 | 明知山策划 | TinaNetflix 高级软件工程师 Surabhi Diwan 在 2023 年旧金山 QCon 大会上发表了题为管理 Netflix 的 2.38 亿会员的演讲。她在...【详细内容】

2024-04-08　　　　InfoQ　　Tags:Netflix 　点击:(0)　　评论:(0)　　加入收藏

即将过时的 5 种软件开发技能！

作者 | Eran Yahav编译 | 言征出品 | 51CTO技术栈（微信号：blog51cto）时至今日，AI编码工具已经进化到足够强大了吗？这未必好回答，但从2023 年 Stack Overflow 上的调查数据来看，44%...【详细内容】

2024-04-03　　　　51CTO　　Tags:软件开发　点击:(6)　　评论:(0)　　加入收藏

跳转链接代码怎么写？

在网页开发中，跳转链接是一项常见的功能。然而，对于非技术人员来说，编写跳转链接代码可能会显得有些困难。不用担心！我们可以借助外链平台来简化操作，即使没有编程经验，也能轻松实...【详细内容】

2024-03-27　　蓝色天纪　　　　Tags:跳转链接　点击:(13)　　评论:(0)　　加入收藏

中台亡了，问题到底出在哪里？

曾几何时，中台一度被当做“变革灵药”，嫁接在“前台作战单元”和“后台资源部门”之间，实现企业各业务线的“打通”和全域业务能力集成，提高开发和服务效率。但在中台如火如荼之...【详细内容】

2024-03-27　　dbaplus社群　　　　Tags:中台　点击:(9)　　评论:(0)　　加入收藏

员工写了个比删库更可怕的Bug！

想必大家都听说过删库跑路吧，我之前一直把它当一个段子来看。可万万没想到，就在昨天，我们公司的某位员工，竟然写了一个比删库更可怕的 Bug！给大家分享一下（不是公开处刑），希望朋友们...【详细内容】

2024-03-26　　dbaplus社群　　　　Tags:Bug 　点击:(5)　　评论:(0)　　加入收藏

我们一起聊聊什么是正向代理和反向代理

从字面意思上看，代理就是代替处理的意思，一个对象有能力代替另一个对象处理某一件事。代理，这个词在我们的日常生活中也不陌生，比如在购物、旅游等场景中，我们经常会委托别人代替...【详细内容】

2024-03-26　　萤火架构　　微信公众号　　Tags:正向代理　点击:(11)　　评论:(0)　　加入收藏

看一遍就理解：IO模型详解

前言大家好，我是程序员田螺。今天我们一起来学习IO模型。在本文开始前呢，先问问大家几个问题哈~什么是IO呢？什么是阻塞非阻塞IO？什么是同步异步IO？什么是IO多路复用？select/epoll...【详细内容】

2024-03-26　　捡田螺的小男孩　　微信公众号　　Tags:IO模型　点击:(9)　　评论:(0)　　加入收藏

为什么都说 HashMap 是线程不安全的？

做Java开发的人，应该都用过 HashMap 这种集合。今天就和大家来聊聊，为什么 HashMap 是线程不安全的。1.HashMap 数据结构简单来说，HashMap 基于哈希表实现。它使用键的哈希码来...【详细内容】

2024-03-22　　Java技术指北　　微信公众号　　Tags:HashMap 　点击:(11)　　评论:(0)　　加入收藏

如何从头开始编写LoRA代码，这有一份教程

选自 lightning.ai作者：Sebastian Raschka机器之心编译编辑：陈萍作者表示：在各种有效的 LLM 微调方法中，LoRA 仍然是他的首选。LoRA（Low-Rank Adaptation）作为一种用于微调 LLM（大...【详细内容】

2024-03-21　　机器之心Pro　　　　Tags:LoRA 　点击:(12)　　评论:(0)　　加入收藏

这样搭建日志中心，传统的ELK就扔了吧！

最近客户有个新需求，就是想查看网站的访问情况。由于网站没有做google的统计和百度的统计，所以访问情况，只能通过日志查看，通过脚本的形式给客户导出也不太实际，给客户写个简单的...【详细内容】

2024-03-20　　dbaplus社群　　　　Tags:日志　点击:(4)　　评论:(0)　　加入收藏

推荐资讯

新增融券再启动暂停键	16个Redis常见使用场
一篇文章教会你使用Py	聊聊Rust里面的数据类
C++中的外部模板及其	一篇文章带你了解Pyth
网络安全行业的春天何	Linux获取Redis 性能