您当前的位置:首页 > 互联网百科 > 大数据

大数据之Flume搭建

时间:2022-01-29 13:04:24  来源:  作者:科苑大数据

一、搭建

1、解压

tar -zxf /opt/software/Apache-flume-1.9.0-bin.tar.gz -C /opt/module/
mv /opt/module/apache-flume-1.9.0-bin /opt/module/flume

2、删除不兼容包

rm /opt/module/flume/lib/guava-11.0.2.jar

3、测试

1、安装nc

yum install -y nc

2、创建agent配置文件

cd /opt/module/flume/job
vim flume-netcat-logger.conf
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

# Describe the sink
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

3、启动

vi flume.sh
/opt/module/flume/bin/flume-ng agent --conf /opt/module/flume/conf/ --name a1 --conf-file /opt/module/flume/job/flume-netcat-logger.conf -Dflume.root.logger=INFO,console
sh flume.sh

参数说明:

--conf/-c:表示配置文件存储在conf/目录

--name/-n:表示给agent起名为a1

--conf-file/-f:flume本次启动读取的配置文件是在job文件夹下的flume-telnet.conf文件。

-Dflume.root.logger=INFO,console :-D表示flume运行时动态修改flume.root.logger参数属性值,并将控制台日志打印级别设置为INFO级别。日志级别包括:log、info、warn、error。

4、启动nc输入数据

nc localhost 44444

5、检查数据

二、使用

1、Flume数据输出到HDFS

1、flume文本

 vim flume-file-hdfs.conf
# Name the components on this agent
a2.sources = r2
a2.sinks = k2
a2.channels = c2

# Describe/configure the source
a2.sources.r2.type = exec
a2.sources.r2.command = tail -F /opt/module/hive/logs/hive.log

# Describe the sink
a2.sinks.k2.type = hdfs
a2.sinks.k2.hdfs.path = hdfs://bigdata:9820/flume/%Y%m%d/%H
#上传文件的前缀
a2.sinks.k2.hdfs.filePrefix = logs-
#是否按照时间滚动文件夹
a2.sinks.k2.hdfs.round = true
#多少时间单位创建一个新的文件夹
a2.sinks.k2.hdfs.roundValue = 1
#重新定义时间单位
a2.sinks.k2.hdfs.roundUnit = hour
#是否使用本地时间戳
a2.sinks.k2.hdfs.useLocalTimeStamp = true
#积攒多少个Event才flush到HDFS一次
a2.sinks.k2.hdfs.batchSize = 100
#设置文件类型,可支持压缩
a2.sinks.k2.hdfs.fileType = DataStream
#多久生成一个新的文件
a2.sinks.k2.hdfs.rollInterval = 60
#设置每个文件的滚动大小
a2.sinks.k2.hdfs.rollSize = 134217700
#文件的滚动与Event数量无关
a2.sinks.k2.hdfs.rollCount = 0

# Use a channel which buffers events in memory
a2.channels.c2.type = memory
a2.channels.c2.capacity = 1000
a2.channels.c2.transactionCapacity = 100

# Bind the source and sink to the channel
a2.sources.r2.channels = c2
a2.sinks.k2.channel = c2

2、启动脚本

vim  flume-file-hdfs.sh
/opt/module/flume/bin/flume-ng agent --conf /opt/module/flume/conf/ --name a2 --conf-file /opt/module/flume/job/flume-file-hdfs.conf -Dflume.root.logger=INFO,console
sh flume-file-hdfs.sh

3、hdfs页面验证数据

2、Flume监听整个目录的实时追加文件,并上传至HDFS

1、flume文本

vim flume-taildir-hdfs.conf
a3.sources = r3
a3.sinks = k3
a3.channels = c3

# Describe/configure the source
a3.sources.r3.type = TAILDIR
a3.sources.r3.positionFile = /opt/module/flume/tail_dir.json
a3.sources.r3.filegroups = f1 f2
a3.sources.r3.filegroups.f1 = /opt/module/flume/files/.*file.*
a3.sources.r3.filegroups.f2 = /opt/module/flume/files2/.*log.*

# Describe the sink
a3.sinks.k3.type = hdfs
a3.sinks.k3.hdfs.path = hdfs://bigdata:9820/flume/upload2/%Y%m%d/%H
#上传文件的前缀
a3.sinks.k3.hdfs.filePrefix = upload-
#是否按照时间滚动文件夹
a3.sinks.k3.hdfs.round = true
#多少时间单位创建一个新的文件夹
a3.sinks.k3.hdfs.roundValue = 1
#重新定义时间单位
a3.sinks.k3.hdfs.roundUnit = hour
#是否使用本地时间戳
a3.sinks.k3.hdfs.useLocalTimeStamp = true
#积攒多少个Event才flush到HDFS一次
a3.sinks.k3.hdfs.batchSize = 100
#设置文件类型,可支持压缩
a3.sinks.k3.hdfs.fileType = DataStream
#多久生成一个新的文件
a3.sinks.k3.hdfs.rollInterval = 60
#设置每个文件的滚动大小大概是128M
a3.sinks.k3.hdfs.rollSize = 134217700
#文件的滚动与Event数量无关
a3.sinks.k3.hdfs.rollCount = 0

# Use a channel which buffers events in memory
a3.channels.c3.type = memory
a3.channels.c3.capacity = 1000
a3.channels.c3.transactionCapacity = 100

# Bind the source and sink to the channel
a3.sources.r3.channels = c3
a3.sinks.k3.channel = c3

2、启动脚本

vi flume-taildir-hdfs.sh 
/opt/module/flume/bin/flume-ng agent --conf /opt/module/flume/conf/ --name a3 --conf-file /opt/module/flume/job/flume-taildir-hdfs.conf -Dflume.root.logger=INFO,console
sh flume-taildir-hdfs.sh

3、测试验证数据

在/opt/module/flume目录下创建files和files2文件夹

在files下

echo hello >> file1.txt
echo hello >> file2.txt

在files2下

echo hello >> log1.txt
echo hello >> log2.txt


Tags:大数据   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
一、搭建1、解压tar -zxf /opt/software/apache-flume-1.9.0-bin.tar.gz -C /opt/module/mv /opt/module/apache-flume-1.9.0-bin /opt/module/flume2、删除不兼容包rm /opt...【详细内容】
2022-01-29  Tags: 大数据  点击:(0)  评论:(0)  加入收藏
我们每天都要和手机、电脑、Siri、小艺同学发生千百次的交互,你的每一个点赞,每一次滑动,每一笔消费,每一次刷抖音微博快手,都会被准确无误地记录着。但是,在我们尽情享受互联网...【详细内容】
2022-01-21  Tags: 大数据  点击:(7)  评论:(0)  加入收藏
岁末年初,身为“打工人”都逃不掉写“年度报告”来总结并回顾过去一年的工作与发展。近几年各大与人们生活息息相关的App也开始生成“年度报告”——展示用户过去...【详细内容】
2022-01-19  Tags: 大数据  点击:(9)  评论:(0)  加入收藏
文|小代每次疫情发生时,当地的病例人数公布后,大家最紧张等待的便是他的活动轨迹。流调是漫长又辛苦的工作,但时间不等人,需要快速调查清楚病例的活动轨迹,以防止疫情的大规模扩...【详细内容】
2022-01-17  Tags: 大数据  点击:(33)  评论:(0)  加入收藏
随着科技的进步,通信技术的不断发展,我们对网络的要求越来越高,视频必须看蓝光以上的,游戏不能有卡顿,直播必须流畅。我们是否有想过这些视频从何而来呢?下面我们就来讲讲大数据时...【详细内容】
2022-01-10  Tags: 大数据  点击:(19)  评论:(0)  加入收藏
近日,国家网信办等四部门联合发布了《互联网信息服务算法推荐管理规定》。根据规定,算法推荐服务提供者应当向用户提供不针对其个人特征的选项,或者向用户提供便捷的关闭算法推...【详细内容】
2022-01-06  Tags: 大数据  点击:(9)  评论:(0)  加入收藏
金价通常在1月获资金和节日黄金消费需求支持,如何理解这一现象?一方面是年底资金轮转,一方面是中国传统的黄金消费旺季推动。1月金价表现往往也代表了基金机构看法,反映了资金在...【详细内容】
2021-12-31  Tags: 大数据  点击:(16)  评论:(0)  加入收藏
为啥这几年偷税漏税的新闻这么多?不是偷的人多了,是因为国家有了查税大杀器: ...【详细内容】
2021-12-24  Tags: 大数据  点击:(27)  评论:(0)  加入收藏
张欣安科瑞电气股份有限公司 上海嘉定 201801 摘要:随着电力行业各系统接入,海量数据涌现,如何利用电网信息化中大量数据,对客户需求进行判断分析,服务于营销链条,提升企业市场竞...【详细内容】
2021-12-14  Tags: 大数据  点击:(22)  评论:(0)  加入收藏
1、什么是数据分析结合分析工具,运用数据分析思维,分析庞杂数据信息,为业务赋能。 2、数据分析师工作的核心流程:(1)界定问题:明确具体问题是什么;●what 发生了什么(是什么)●why 为...【详细内容】
2021-12-01  Tags: 大数据  点击:(41)  评论:(0)  加入收藏
▌简易百科推荐
一、搭建1、解压tar -zxf /opt/software/apache-flume-1.9.0-bin.tar.gz -C /opt/module/mv /opt/module/apache-flume-1.9.0-bin /opt/module/flume2、删除不兼容包rm /opt...【详细内容】
2022-01-29  科苑大数据    Tags:大数据   点击:(0)  评论:(0)  加入收藏
我们每天都要和手机、电脑、Siri、小艺同学发生千百次的交互,你的每一个点赞,每一次滑动,每一笔消费,每一次刷抖音微博快手,都会被准确无误地记录着。但是,在我们尽情享受互联网...【详细内容】
2022-01-21  上下前    Tags:大数据   点击:(7)  评论:(0)  加入收藏
知乎业务中,随着各业务线业务的发展,逐渐对用户画像和实时数据这两部分的诉求越来越多。对用户画像方面,期望有更快、更准、更方便的人群筛选工具和方便的用户群体分析能力。对...【详细内容】
2022-01-19  大数据推荐杂谈    Tags:数据架构   点击:(12)  评论:(0)  加入收藏
文|小代每次疫情发生时,当地的病例人数公布后,大家最紧张等待的便是他的活动轨迹。流调是漫长又辛苦的工作,但时间不等人,需要快速调查清楚病例的活动轨迹,以防止疫情的大规模扩...【详细内容】
2022-01-17  代码工场聊开发    Tags:流调   点击:(33)  评论:(0)  加入收藏
小伙们经常听到这样一句话:“数据分析师一定要懂业务!”那到底啥玩意才是业务?懂多少才算懂业务?今天跟大家分享一下。一、什么是业务?业务是相对于技术和行政来说的,是企业里一种...【详细内容】
2022-01-07  数据分析不是个事儿    Tags:数据分析   点击:(14)  评论:(0)  加入收藏
今天来讲讲数据大屏自适应如何实现。 我们知道,根据不同的业务场景,做一个好的大屏需要考虑大屏布局、图表展现、交互动效、操作是否简单、是否能自适应等等因素。其中大屏是...【详细内容】
2022-01-07  思迈特软件Smartbi    Tags:数据可视化   点击:(18)  评论:(0)  加入收藏
数据是时代发展与科技进步的产物,也是当下时代最重要的生产要素之一。要让数据进入市场实现经济效益,需要明确界定所有、支配、使用、收益、处置等产权权能的完整技术和规则要...【详细内容】
2021-12-31  CyborgGoody    Tags:GoodData   点击:(9)  评论:(0)  加入收藏
作者:俊欣来源:关于数据分析与可视化大家好,又是新的一周,也是2021年的最后一周,今天小编来和大家说一说怎么从DataFrame数据集中筛选符合指定条件的数据,希望会对读者朋友有所帮...【详细内容】
2021-12-30  CDA数据分析师    Tags:Pandas   点击:(18)  评论:(0)  加入收藏
前言什么是数据脱敏数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护常用脱敏规则替换、重排、加密、截断、掩码良好的数据脱敏实施1、尽...【详细内容】
2021-12-28  linyb极客之路    Tags:数据脱敏   点击:(21)  评论:(0)  加入收藏
张欣安科瑞电气股份有限公司 上海嘉定 201801 摘要:随着电力行业各系统接入,海量数据涌现,如何利用电网信息化中大量数据,对客户需求进行判断分析,服务于营销链条,提升企业市场竞...【详细内容】
2021-12-14  安科瑞张欣    Tags:大数据   点击:(22)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条