您当前的位置:首页 > 电脑百科 > 程序开发 > 编程百科

Hadoop 及Spark 分布式HA运行环境搭建

时间:2023-02-21 10:59:59  来源: 京东云企业管家  作者:



欲善其事必先利其器,在深入学习大数据相关技术之前,先手动从0到1搭建一个属于自己的本地Hadoop和Spark运行环境,对于继续研究大数据生态圈各类技术具有重要意义。本文旨在站在研发的角度上通过手动实践搭建运行环境,文中不拖泥带水过多讲述基础知识,结合Hadoop和Spark最新版本,帮助大家跟着步骤一步步实践环境搭建。

1. 总体运行环境概览

(1) 软件包及使用工具版本介绍表:

(2)环境部署与分布介绍表:

(3)进程介绍:(1表示进程存在,0表示不存在)

2. 系统基础环境准备

步骤1: 虚拟机中linux系统安装(略)

VirtualBox中安装centos7操作系统

步骤2: CentOS7基础配置

(1) 配置主机的hostname

命令: vim/etc/hostname

(2) 配置hosts, 命令vim /etc/hosts

(3) 安装JDK

命令:

rpm -qa | grep JAVA 查看是否有通过rpm方式安装的java

java -version 查看当前环境变量下的java 版本

1) filezilla上传安装包,tar -zxvf

jdk-8u212-linux-x64.tar.gz 解压

2) bin目录的完整路径:

/usr/local/jdk/jdk1.8.0_212/bin

3) vim /etc/profile 配置jdk环境变量

(4) 复制主机:

1)利用VirtualBox复制功能复制两台主机

2)命令:vi

/etc/sysconfig.NETwork-scripts/ifcfg-eth0,设置相应的网络信息

3)三台主机IP分别为: 192.168.0.20/21/22

(5) 配置三台主机ssh无密码登录(略)

(6) 安装zookeeper

1) filezilla上传安装包,zookeeper-3.4.10.tar.gz 解压

2) bin目录的完整路径:

/usr/local/zookeeper/zookeeper-3.4.10/bin

3) vim /etc/profile 配置jdk环境变量

4) zookeeper的配置文件修改,zookeeper-3.4.10/conf/

5) 执行命令从master节点复制配置到其他两个节点

6) 每台机器zookeeper目录下新建一个data目录, data目录下新建一个myid文件,master主机存放标识值1;slave1主机标识值为2;slave3主机标识值为3

7) 每台机器上命令:zkServer.sh start ,启动ZK,进程名:QuorumPeerMAIn

3. Hadoop安装与部署 3.1安装Hadoop

1)filezilla上传安装包,hadoop-3.3.4.tar.gz 解压

2)bin目录的完整路径: /usr/local/hadoop/hadoop-3.3.4/bin

3)vim /etc/profile 配置jdk环境变量

4) 修改配置文件共6个: hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml和workers

文件1: hadoop-env.sh; 增加jdk环境变量

文件2: core-site.xml; 配置临时目录及zookeeper信息

文件3: hdfs-site.xml; 配置hdfs信息

文件4: mapred-site.xml; 配置mapreduce和dfs权限信息

文件5: yarn-site.xml; 配置yarn资源调度信息

文件6: worker文件存放当前的worker节点名,复制到每一个虚拟机中

3.2启动Hadoop

1) 使用命令: hadoop-daemon.sh start journalnode 启动journalnode 进程(每个节点执行)

2) 使用命令: hadoop-daemon.sh start namenode 启动namenode 进程(master、slave1节点上执行)

3) 使用命令:hadoop-daemon.sh start datanode 在所有节点上启动datanode 进程

4) 使用命令:start-yarn.sh 在master上启动yarn

5) 使用命令: hdfs zkfc -formatZK 在ZK上生成ha节点

6) 使用命令: hadoop-daemon.sh start zkfc 启动 DFSZKFailoverController进程,在master节点执行

a. 访问HDFS的管理页面

http://192.168.0.20:50070 此处192.168.0.20为namenode节点的Active节点

http://192.168.0.21:50070 此处192.168.0.20为namenode节点的standby节点

3.3 验证HDFS使用

使用命令:hdfs dfs -ls / 查看HDFS中文件

使用命令:hdfs dfs -mkdir /input 在HDFS上创建目录

使用命令:hdfs dfs -put ./test.txt /input 将本地文件上传到HDFS指定目录

使用命令:hdfs dfs -get /input/test.txt ./tmp 将HDFS文件复制到本地目录

使用命令:hdfs dfs -text /input/test.txt 查看HDFS上的文本文件

web端浏览HDFS目录

3.4 验证MapReduce的wordcount案例

(1)先通过命令将带有文本内容的test2.txt文件上传到HDFS

(2)对HDFS上test2.txt文件执行wordcount统计,结果放回HDFS新目录,命令:

hadoop jar /usr/local/hadoop/hadoop-3.3.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /input/test2.txt /out

4. Spark安装与部署 3.1安装Scala

(1)安装scala

上传scala压缩包解压,使用命令:

scala -version 查看当前环境变量下的scala 版本

(2)拷贝scala目录和环境变量到其他两台机器

使用命令:

scp -r /usr/local/scala root@slave1:/usr/local/

scp /etc/profile root@slave1:/etc/profile

3.2安装Spark

(1)上传spark压缩包解压,修改配置文件

命令: vim

/usr/local/spark/spark-3.3.1/conf/spark-env.sh

(2) 新建worker目录,写入master机器名称

3.3启动Spark

(1)在master的spark安装目录下启动spark

命令:

cd /usr/local/spark/spark-3.3.1/sbin

./start-all.sh

(2)在slave1同样目录启动master进程

命令:./start-master.sh

(3)访问spark管理页面ui

3.3 验证Spark的wordcount案例

(1)执行命令:

cd /usr/local/spark/spark-3.3.1/bin

./spark-shell --master spark://master:7077

(3)从HDFS读取数据执行自定义wordcount代码,结果写入HDFS,命令:

sc.textFile("hdfs://master:9000/input/test2.txt").flatMap(_.split(" ")).map(word=>(word,1)).reduceByKey(_+_).map(pair=>(pair._2,pair._1)).sortByKey(false).map(pair=>(pair._2,pair._1)).saveAsTextFile("hdfs://master:9000/spark_out")

(4)输出结果:

5. 后记

大数据技术日新月异,得益于互联网技术加持下的商业和工业模式变革。人们日益增长的对生活生产便捷性、数字化、智能化的需求,催生了数据爆炸式的增长,推动了大数据技术推陈出新。作为新时代的程序开发者,必须掌握一定的大数据基础知识才能适应时代的要求,本文只是一个引子,从自身实践的角度帮助初学者认识大数据,并基于此搭建自己属于自己的开发环境,希望大家能够在此基础上继续钻研有所建树。


作者:京东物流 秦彪



Tags:Hadoop   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
在Linux系统中实现容器化的大规模数据分析平台:Hadoop和Spark
在Linux系统中实现容器化的大规模数据分析平台,我们可以利用Hadoop和Spark这两个强大的开源工具。Hadoop是一个分布式计算框架,适用于处理大规模数据集。它提供了分布式文件系...【详细内容】
2023-12-15  Search: Hadoop  点击:(155)  评论:(0)  加入收藏
Hadoop高可用集群部署
背景生产中Hadoop分布式集群中可能存在着单点故障问题,如果Namenode宕机或是软硬件升级,集群将无法使用,所以进行搭建高可用的来消除单点故障。Hadoop介绍Hadoop集群一般为一个...【详细内容】
2023-11-07  Search: Hadoop  点击:(296)  评论:(0)  加入收藏
Hadoop所有命令详解
FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是...【详细内容】
2023-09-26  Search: Hadoop  点击:(317)  评论:(0)  加入收藏
Hadoop运行环境搭建
1 虚拟机环境准备采用前面的章节的方式准备三台虚拟机 : 1)ymm工具(1)使用yum安装需要虚拟机可以正常上网,yum安装前可以先测试下虚拟机联网情况[root@hadoop100 ~]# ping www.b...【详细内容】
2023-08-21  Search: Hadoop  点击:(248)  评论:(0)  加入收藏
9个步骤,手把手教你在Windows上安装Hadoop
在 Microsoft Windows 上运行 Apache Hadoop 是比较繁琐的任务,在安装过程中会出现许多错误,最终,大多数用户放弃了通过 Windows 使用 Hadoop,并转而使用基于 Linux 的操作系统...【详细内容】
2023-05-24  Search: Hadoop  点击:(32)  评论:(0)  加入收藏
Hadoop 及Spark 分布式HA运行环境搭建
欲善其事必先利其器,在深入学习大数据相关技术之前,先手动从0到1搭建一个属于自己的本地Hadoop和Spark运行环境,对于继续研究大数据生态圈各类技术具有重要意义。本文旨在站在...【详细内容】
2023-02-21  Search: Hadoop  点击:(115)  评论:(0)  加入收藏
大数据基础架构Hadoop
导读:大数据正在成为经济社会发展的新的驱动力。随着云计算、移动互联网等网络新技术的应用和发展,社会信息化进程进入大数据时代,海量数据的产生与流转成为常态。而大数据技术...【详细内容】
2023-01-29  Search: Hadoop  点击:(185)  评论:(0)  加入收藏
“后Hadoop时代”,大数据从业者如何应对新技术趋势带来的挑战?
作者 | 蔡芳芳采访嘉宾 | 刘京娟、贾扬清、王峰作为开源大数据项目的发端,Hadoop 兴起至今已经超过十五年。在过去这十数年里,开源大数据领域飞速发展,我们见证了多元化技术的...【详细内容】
2022-11-23  Search: Hadoop  点击:(371)  评论:(0)  加入收藏
hadoop集群的搭建、完全分布式运行 一看就会
前期准备模板机准备修改静态IPvim /etc/sysconfig/network-scripts/ifcfg-ens33TYPE="Ethernet"PROXY_METHOD="none"BROWSER_ONLY="no"BOOTPROTO="static" //这里改成stati...【详细内容】
2022-08-27  Search: Hadoop  点击:(412)  评论:(0)  加入收藏
大数据Hadoop之——Zookeeper鉴权认证
一、Zookeeper概述与安装Zookeeper概述与安装请参考我之前的文章:分布式开源协调服务——ZookeeperZookeeper的安装方式有两种,两种方式都会讲,其实大致配置都是一样...【详细内容】
2022-07-15  Search: Hadoop  点击:(3147)  评论:(0)  加入收藏
▌简易百科推荐
Netflix 是如何管理 2.38 亿会员的
作者 | Surabhi Diwan译者 | 明知山策划 | TinaNetflix 高级软件工程师 Surabhi Diwan 在 2023 年旧金山 QCon 大会上发表了题为管理 Netflix 的 2.38 亿会员 的演讲。她在...【详细内容】
2024-04-08    InfoQ  Tags:Netflix   点击:(0)  评论:(0)  加入收藏
即将过时的 5 种软件开发技能!
作者 | Eran Yahav编译 | 言征出品 | 51CTO技术栈(微信号:blog51cto) 时至今日,AI编码工具已经进化到足够强大了吗?这未必好回答,但从2023 年 Stack Overflow 上的调查数据来看,44%...【详细内容】
2024-04-03    51CTO  Tags:软件开发   点击:(6)  评论:(0)  加入收藏
跳转链接代码怎么写?
在网页开发中,跳转链接是一项常见的功能。然而,对于非技术人员来说,编写跳转链接代码可能会显得有些困难。不用担心!我们可以借助外链平台来简化操作,即使没有编程经验,也能轻松实...【详细内容】
2024-03-27  蓝色天纪    Tags:跳转链接   点击:(13)  评论:(0)  加入收藏
中台亡了,问题到底出在哪里?
曾几何时,中台一度被当做“变革灵药”,嫁接在“前台作战单元”和“后台资源部门”之间,实现企业各业务线的“打通”和全域业务能力集成,提高开发和服务效率。但在中台如火如荼之...【详细内容】
2024-03-27  dbaplus社群    Tags:中台   点击:(9)  评论:(0)  加入收藏
员工写了个比删库更可怕的Bug!
想必大家都听说过删库跑路吧,我之前一直把它当一个段子来看。可万万没想到,就在昨天,我们公司的某位员工,竟然写了一个比删库更可怕的 Bug!给大家分享一下(不是公开处刑),希望朋友们...【详细内容】
2024-03-26  dbaplus社群    Tags:Bug   点击:(5)  评论:(0)  加入收藏
我们一起聊聊什么是正向代理和反向代理
从字面意思上看,代理就是代替处理的意思,一个对象有能力代替另一个对象处理某一件事。代理,这个词在我们的日常生活中也不陌生,比如在购物、旅游等场景中,我们经常会委托别人代替...【详细内容】
2024-03-26  萤火架构  微信公众号  Tags:正向代理   点击:(11)  评论:(0)  加入收藏
看一遍就理解:IO模型详解
前言大家好,我是程序员田螺。今天我们一起来学习IO模型。在本文开始前呢,先问问大家几个问题哈~什么是IO呢?什么是阻塞非阻塞IO?什么是同步异步IO?什么是IO多路复用?select/epoll...【详细内容】
2024-03-26  捡田螺的小男孩  微信公众号  Tags:IO模型   点击:(9)  评论:(0)  加入收藏
为什么都说 HashMap 是线程不安全的?
做Java开发的人,应该都用过 HashMap 这种集合。今天就和大家来聊聊,为什么 HashMap 是线程不安全的。1.HashMap 数据结构简单来说,HashMap 基于哈希表实现。它使用键的哈希码来...【详细内容】
2024-03-22  Java技术指北  微信公众号  Tags:HashMap   点击:(11)  评论:(0)  加入收藏
如何从头开始编写LoRA代码,这有一份教程
选自 lightning.ai作者:Sebastian Raschka机器之心编译编辑:陈萍作者表示:在各种有效的 LLM 微调方法中,LoRA 仍然是他的首选。LoRA(Low-Rank Adaptation)作为一种用于微调 LLM(大...【详细内容】
2024-03-21  机器之心Pro    Tags:LoRA   点击:(12)  评论:(0)  加入收藏
这样搭建日志中心,传统的ELK就扔了吧!
最近客户有个新需求,就是想查看网站的访问情况。由于网站没有做google的统计和百度的统计,所以访问情况,只能通过日志查看,通过脚本的形式给客户导出也不太实际,给客户写个简单的...【详细内容】
2024-03-20  dbaplus社群    Tags:日志   点击:(4)  评论:(0)  加入收藏
站内最新
站内热门
站内头条