您当前的位置:首页 > 互联网百科 > 大数据

大数据工程师到底是做什么的?

时间:2022-05-06 14:18:52  来源:  作者:大数据技术RYrL

1. 什么是大数据?

大数据的几个明显的特点:

海量的数据

数据多样性

数据增速快

以上特点带来了数据的存储和计算问题,大数据技术的出现就是为了解决上述问题的。

接着往下看,下图 1-1 展示了数据端到端的流程,从左到右依次为:数据产生、数据采集和传输、数据存储,处理、数据应用。

大数据工程师到底是做什么的?

 

为了解决这个过程中大数据场景遇到的问题,我们可以使用哪些技术呢?

数据采集和传输:Sqoop、Flume、DataX、Canal 等。

数据存储:HDFS、HBase、ES、ClickHouse、Kafka等。

数据计算:MapReduce、Spark、Flink 、Hive、Presto 等。

如果你现在还不了解这些技术?不要紧,先有个大概的印象就好。技术不断在进步,先理解技术产生的背景,比技术本身更重要。

2、大数据开发工程师的分类 & 职责

简单总结如下,公司越大,岗位分得越细。

大数据工程师到底是做什么的?

 

看了上面大数据细分的岗位,不难发现,这是一个比较庞大的生态,不是一两句话就能概括的,下面我尽可能的还原每个岗位的工作职责。

 

数据运维工程师

① 协调机器资源,采购、缩减、预算等等。

② 集群组件的维护、升级。

③ 处理集群和用户的各种问题...

④ 如果公司采购了阿里/网易这样的数据平台,就会很省心。

数据平台开发工程师

① 开发面向数据开发使用的工具,比如元数据系统、数据质量、数据采集、数据计算平台、任务调度平等。自研或者基于开源的项目进行二次开发。

② 开发面向产品和数据分析师的工具:数据报表平台、数据分析平台、数据查询平台(AdHoc)等。

③ 需要熟悉 Web 后端开发语言,比如 JAVA/Go等,熟悉大数据开源组件,可以进行二次开发等。

数据仓库工程师

① 离线数仓的开发,比如数仓建模、数据清洗。

② 实时数仓:实时指标的开发,使用Spark StreAIng 、Flink。

③ 主要是写 SQL(离线、实时开发平台)、需要理解业务,开发业务报表。

④ 需要业务能力,根据业务数据进行建模。

数据测试工程师

① 一般公司没有这个岗位,大概率又开发工程师进行自测。

② 测试数仓开发的指标逻辑、数据的准确性。

③ 测试业务埋点上报的准确性等。

数据分析师

不同的公司也有些不同的叫法:比如阿里的BI,美团的商分

① 临时取数:比如大型活动,某一次运营活动等数据查询分析。

② 日报、周报、月报、季报、年报、报表等等。

③ 专题分析,比如用户画像分析、ROI分析、风控分析、指标体系的搭建等

④ 市场分析,比如要做竞品分析、渠道分析、行业分析等等。

⑤ 编写数据分析报告。

数据挖掘师

① 用户基础研究,用户生命周期刻画(进入、成长、成熟、衰退、流失)、用户细分模型、用户价值模型、用户活跃度模型、用户意愿度识别模型、用户偏好识别模型、用户流失预警模型、用户激活模型等。

② 个性化推荐算法:基于协同过滤(USERBASE/ITEMBASE)的推荐,基于内容推荐,基于关联规则Apriot算法推荐,基于热门地区、季节、商品、人群的推荐等。

③ 风控模型:恶意注册模型、异地识别模型、欺诈识别模型、高危会员模型;电商领域(炒信模型、刷单模型、职业差评师模型、虚假发货模型、反欺诈模型);金融领域(欺诈评分模型、征信评分模型、催收模型、虚假账单识别模型等)。

④ 文本挖掘、语义识别、图像识别,等等。

算法工程师

① 语音、图像、自然语言处理、深度学习等机器学习算法开发及优化。

② 挖掘并推进算法在业务中应用:比如美团外卖的配送算法、滴滴打车的派单算法。

③ 推荐系统、用户画像。

数据产品经理

① 协助公司各业务⽅向⼤数据应⽤产品调研、规划、执⾏。

② 数据产品的开发项目管理工作,确保项目按照需求如期完成。

3、总结

以上大数据的岗位的职责,也只是冰山一角,每一家公司独一岗位的分类和职责也不太一样。但是实现数据价值的目标是一致的。

看到好多人都在说大数据工程师是 SQL Boy,也有自嘲,算法工程师自嘲为算命工程师,哈哈,简直不能再形象了。



Tags:大数据工程师   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
算法工程师与大数据工程师有什么区别?
作为一项涉及多方面知识的IT技术,大数据技术需要学习的东西很多。人们常常面对如此多的学习材料,却不知从何下手。其实我们可以根据大数据就业方向来进行专项学习。那么大数据...【详细内容】
2022-06-06  Search: 大数据工程师  点击:(157)  评论:(0)  加入收藏
大数据工程师到底是做什么的?
1. 什么是大数据?大数据的几个明显的特点:海量的数据数据多样性数据增速快以上特点带来了数据的存储和计算问题,大数据技术的出现就是为了解决上述问题的。接着往下看,下图 1-1...【详细内容】
2022-05-06  Search: 大数据工程师  点击:(526)  评论:(0)  加入收藏
年薪50万都难招的大数据工程师,凭什么?
回顾2018年,降薪、裁员、互联网寒冬似乎成为主旋律,那实际上资本市场萎缩了吗?其实不然,2018年6月,蚂蚁金服还获得140亿融资,而热度较高的大数据行业,在2018年的融资额达到1273.1亿...【详细内容】
2019-06-05  Search: 大数据工程师  点击:(982)  评论:(0)  加入收藏
▌简易百科推荐
大数据杀熟何时告别“人人喊打却无可奈何”?
2月7日郑州飞往珠海的航班,不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历,引发社会广泛关注——用3个账号买同一航班同...【详细内容】
2024-01-30    中国青年网  Tags:大数据杀熟   点击:(34)  评论:(0)  加入收藏
简易百科:到底什么是大数据?
随着互联网的快速发展,大数据已经成为了当今社会最热门的话题之一。那么,到底什么是大数据呢?首先,我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】
2024-01-30    简易百科  Tags:大数据   点击:(40)  评论:(0)  加入收藏
数据采集新篇章:AI与大模型的融合应用
开篇在AIGC(人工智能与通用计算)应用中,大型语言模型(LLM)占据着举足轻重的地位。这些模型,如GPT和BERT系列,通过处理和分析庞大的数据集,已经极大地推动了自然语言理解和生成的边界...【详细内容】
2024-01-17  崔皓  51CTO  Tags:数据采集   点击:(56)  评论:(0)  加入收藏
挑战 Spark 和 Flink?大数据技术栈的突围和战争
十年的轮回,正如大数据的发展一般,它既是一个轮回的结束,也是崭新的起点。大数据在过去的二十年中蓬勃发展,从无到有,崛起为最具爆炸性的技术领域之一,逐渐演变成为每个企业不可或...【详细内容】
2024-01-17  InfoQ    Tags:大数据   点击:(40)  评论:(0)  加入收藏
分布式存储系统在大数据处理中扮演着怎样的角色?
如果存储节点本身可以定制,则通常会让其支持部分计算能力,以利用数据的亲和性,将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储,无法定制,则通常会将数据在计...【详细内容】
2023-12-19  木鸟杂记  微信公众号  Tags:大数据   点击:(49)  评论:(0)  加入收藏
大数据如何实时拯救生命:车联网的数据分析有助预防交通事故
译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大,尤其是当电动汽车成为汽车市场新的增长引擎。问题是:用户的数据平台准备...【详细内容】
2023-12-19    51CTO  Tags:大数据   点击:(43)  评论:(0)  加入收藏
利用生成对抗网络进行匿名化数据处理
在互联网时代,数据日益成为人们的生产资料。然而,在某些情况下,我们需要分享数据,但又需要保护个人隐私。这时,匿名化技术就显得尤为重要。本文将介绍利用生成对抗网络进行匿名化...【详细内容】
2023-12-18  技巧达人小影    Tags:数据处理   点击:(57)  评论:(0)  加入收藏
盘点那些常见的数据中心类型,你知道几个?
在数字化潮流的浪潮下,数据中心如同企业的神经系统,关系到业务的稳健运转。而在这个巨大的网络中,各种数据中心类型如雨后春笋般崭露头角。从企业级的个性至云数据中心的虚拟化...【详细内容】
2023-12-07  数据中心之家  微信公众号  Tags:数据中心   点击:(71)  评论:(0)  加入收藏
数据中心的七个关键特征
随着信息技术的不断演进,数据中心的可靠性、可扩展性、高效性、安全性、灵活性、管理性和可持续性成为业界探讨的焦点。下面让我们一同深入剖析这些关键特征,了解它们是如何影...【详细内容】
2023-12-06  数据中心之家  微信公众号  Tags:数据   点击:(65)  评论:(0)  加入收藏
什么是数据解析?将数据转化为更好的决策
什么是数据解析?数据解析是一门专注于从数据中获取洞察力的学科。它包含数据分析(data analysis)和管理的流程、工具和技术,包括数据的收集、组织和存储。数据解析的主要目的是...【详细内容】
2023-12-06  计算机世界    Tags:数据解析   点击:(67)  评论:(0)  加入收藏
站内最新
站内热门
站内头条