您当前的位置:首页 > 互联网百科 > 大数据

来说说,什么才是真正的大数据分析

时间:2023-03-04 13:44:43  来源:微信公众号  作者:接地气的陈老师

“大数据”仨字已经被喊烂了,“大数据分析”也经常被人提起。可到底咋完全是“大数据分析”?为啥大家喊得很多,平时工作中很少感受得到?今天系统讲解一下。

 

01普通人理解的“大数据”

 

普通人理解的大数据可谓千奇百怪,比如:

 

1、一个Excel文件 200M,多大的数据呀!

2、我国人口14亿,这个数据好大呀!

3、卧槽,我刚看了车,就有4S店推广电话,肯定收集了我的大数据

……

 

这些千奇百怪的理解,都是来自对“数据”本身不够了解导致的。想整明白“大数据”真正的含义,得从数据是从哪里来的讲起。

 

02先理解“小数据”,再谈“大数据”

 

最原始的数据采集方式就是:问卷。由专门的调查人员,借助一张张调查问卷,通过现场询问、测量等方式获得数据。这种方法已经沿用了400多年,经典的统计学、管理学理论都是建立在此之上的(如下图)。

 

图片

 

小数据有没用?有用!非常有用!

 

能采集到某个地区的数据,代表着政府对这个地区有统治力。

能采集到越多的数据,中央就能掌握地方情况,从而加强管理。

数据是如此重要,以至于历史上很长一段时间,统计任务归属于政府、军队、情报机关。我国的第一家调查公司还是在90年代初,在宝洁强烈要求下成立的。

 

但是,调研做法有三个明显的问题:

 

1、非常耗费人力。访问员、督导、审核、录入、数据处理……都是人

2、非常耗费时间。设计问卷、填写、回收、都是时间

3、准确度低。现场测量的数据会相对准,但口头问回来的大部分都不准

图片

 

这些问题,导致了问卷时代的数据采集,只能有抽样式的,不能是全量采集。也因此衍生出了专门的抽样理论和方法。但无论数据方法怎么改进,在业务上,抽样,始终是一个难以逾越的梗阻。决策者总会觉得:

 

1、是不是样本量太少

2、是不是代表性不够

3、没有覆盖的样本是不是真的一致

只要是抽样数据,就一定会被质疑,就总是充满怀疑。这也是最初“小数据”的说法来源,后续所有“大数据”其实都是围绕“小数据”问题而来。

 

▌数据变大第一步:系统采集

 

数据从小变大的第一步,从系统采集开始。比如企业扩大规模,要在各地建连锁店,第一步做得就是装POS机,把交易数据采集进来,替代纸质订货单/出货单。此时想了解销售数据,是可以基于POS机收集的数据全量查看的(如下图)。

 

图片

 

从抽样数据到全量数据,是一个质的变化。基于全量数据,可以直接管理到各个终端门店,直接基于数据作出经营决策。因此大部分企业的销售分析、经营分析、业务分析体系,都是在此基础之上建立起来的(如下图)。

 

 

 

但是这个阶段的局限也是很明显的:POS机只能记录交易结果,对过程一概不知。谁在买,买了多少,为啥买,通通不清楚。

 

这个阶段的分析,是典型的知其然,不知其所以然的分析,大部分分析只能通过成交结果去猜。如果只有这个阶段的数据,想做深入分析,还是得依靠调研。比如传统企业想了解门店成交流程,会做门店调查,研究消费者在门店的动线,询问消费者体验。

 

▌数据变大第二步:主动采集

 

有了系统采集以后,大家自然地会想:除了交易数据,其他数据也能通过系统化采集。比如最简单的形式:让用户自己交身份证,通过图像识别录入。这样既能采集到用户数据,又能避免手动填写的错误。

 

但是问题来了:凭啥要交身份证给你呀!于是传统采集,只有银行、航空、通讯等有国家背景+法律规范要求的地方,才能相对准确的采集这些真实数据。

 

图片

 

不过这些困难并没有阻挡住企业采集信息的热情。常见的手段,比如:勾引用户办会员卡,给生日礼遇让用户填写生日。用户完成信息给积分奖励之类。更激进的,甚至有常识在门店装人脸识别、装眼动仪跟踪设备来采集数据(当然,成本很高)。

 

为什么企业会孜孜不倦追求这些数据,因为这些数据真的有用。至少能把数据具体到一个人的身上,能识别出谁是高端用户,谁是沉睡用户,从而精细化运作(如下图)

 

 

 

真正低成本的、解决采集消费者行为数据的问题,还得靠互联网产品。

 

▌数据变大第三步:行为加入

 

互联网产品的最大优势,在于App/小程序/H5本身就是数字化产品。此时不但有条件记录到用户的点击、登录等行为数据,而且能将用户ID、手机号等信息整合成统一ID,效率比依赖线下纸质单张申请的流程强无数倍。

 

还能将视频、图片、文章等内容打标签,通过用户点击、转发次数,浏览时长,反推用户需求。对于经历过传统企业数据的人来说,互联网产品的数据简直就是鸟枪换炮。

 

相较之传统的会员基础信息、消费流水数据,用户行为数据量特别、特别的大,大家想想自己在淘宝逛多久才买一件东西就知道了。可能之前几百次点击浏览,最后才有一单交易。

 

因此,需要专门的大数据架构来支持这些数据的存储和计算。狭义上的大数据技术,特指对大量的用户行为数据、非结构化数据的存储和计算。

 

有了这些数据,才有现在我们流行的互联网分析方法,比如漏斗分析法(如下图)。

 

图片

 

基于这些基础数据采集,还能延伸出更多数据应用,比如:

 

1、模型类:行为预测、推荐算法

2、测试类:产品ABtest

3、画像类:用户画像

图片

 

虽然这些方法,基于交易数据也能做,但是数据量多寡,直接决定了结果准确度。从而影响到业务端使用。在传统时代,只有银行、运营商、航空公司独享的分析方法,成为现在互联网公司的标配。

 

然而即使这样,既然有一些问题不能解决

 

● 用户数据分散在若干平台,导致单一平台数据不足

● 用户心理无法直接反应为数据,冲动型行为会干扰正常数据判断

● 信息安全法规要求越发严格,对数据采集/使用限制在增多

因此,如何合法合规、持续利用大数据资源,依然是今天一个重要议题。

 

03上不了台面的“变大”方法

 

当然,还有一些灰色/黑色的方法,让数据变大

 

1、直接从“有数据”的人手上,买数据!

2、爬虫、撞库,硬捞用户数据

3、通过设备,默默收集用户数据

这就是各种骚扰电话、垃圾短信的源头。当然,随着国家对信息安全保护要求越来越严格,这些玩意生存空间也是逐步被压缩,所以不谈也罢。

 

04“大数据有啥用”的终极答案

 

纵观数据从小到大的整个过程可以看出:数据从来都有用。即使最简单、最不准的数据,也能反应管理上的问题。因此决策者们对于数据的追求,永远是孜孜不倦的,永远是不满足的。(如下图)

 

图片

 

那么,为什么还有这么多人在问“大数据有啥用”呢?

因为并非所有人都理解“数据”的用途,别说大数据了,小数据丫也照样不会用。

 

截止到2023年,依然有人是拍脑袋决策,拍胸脯保证;依然有人沉迷于“老夫从业十年,我说的就是对的”;依然有人觉得大数据包治百病,代码一敲,钞票从电脑屏幕里喷薄而出;依然有人迷信“底层逻辑”“核心思维”,苦练内功心法。

 

总之,想用好数据,就得深入业务流程,具体了解数据采集方式,这样才能读懂数据背后的业务含义,才能把自己面临的具体问题转化为数据问题,才能解出正确答案。

 

图片

 

采集和计算数据,是一门科学

应用数据产生价值,是一种艺术

差别大致如此。



Tags:大数据   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
“霸王条款”“刷单炒信”“大数据杀熟”怎么破解?这部法规都明确了!
预付式消费、直播带货、“一老一小”、“霸王条款”、“刷单炒信”、“大数据杀熟”、自动续费、强制搭售……这些新领域的侵权你遇到过吗?消费者合法权益怎么保...【详细内容】
2024-04-11  Search: 大数据  点击:(2)  评论:(0)  加入收藏
市场监管总局:禁止“大数据杀熟”规范“自动续费”
本报讯 (记者韩昱) 近日,《中华人民共和国消费者权益保护法实施条例》(以下简称《条例》)正式发布。4月9日,国新办举行国务院政策例行吹风会,市场监管总局副局长柳军介绍《条例》有...【详细内容】
2024-04-10  Search: 大数据  点击:(1)  评论:(0)  加入收藏
大数据杀熟何时告别“人人喊打却无可奈何”?
2月7日郑州飞往珠海的航班,不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历,引发社会广泛关注——用3个账号买同一航班同...【详细内容】
2024-01-30  Search: 大数据  点击:(32)  评论:(0)  加入收藏
简易百科:到底什么是大数据?
随着互联网的快速发展,大数据已经成为了当今社会最热门的话题之一。那么,到底什么是大数据呢?首先,我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】
2024-01-30  Search: 大数据  点击:(40)  评论:(0)  加入收藏
挑战 Spark 和 Flink?大数据技术栈的突围和战争
十年的轮回,正如大数据的发展一般,它既是一个轮回的结束,也是崭新的起点。大数据在过去的二十年中蓬勃发展,从无到有,崛起为最具爆炸性的技术领域之一,逐渐演变成为每个企业不可或...【详细内容】
2024-01-17  Search: 大数据  点击:(40)  评论:(0)  加入收藏
Java后端+Java大数据+前端
web前端开发主要涉及创建网页或网站的用户界面,包括布局、样式、动画、交互等。web前端开发需要掌握HTML、CSS、JavaScript等基础语言,以及各种框架和库,如React、Vue、Bootstr...【详细内容】
2023-12-28  Search: 大数据  点击:(101)  评论:(0)  加入收藏
分布式存储系统在大数据处理中扮演着怎样的角色?
如果存储节点本身可以定制,则通常会让其支持部分计算能力,以利用数据的亲和性,将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储,无法定制,则通常会将数据在计...【详细内容】
2023-12-19  Search: 大数据  点击:(48)  评论:(0)  加入收藏
大数据如何实时拯救生命:车联网的数据分析有助预防交通事故
译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大,尤其是当电动汽车成为汽车市场新的增长引擎。问题是:用户的数据平台准备...【详细内容】
2023-12-19  Search: 大数据  点击:(41)  评论:(0)  加入收藏
MongoDB与大数据处理:构建高性能分布式数据库
MongoDB是一种非关系型数据库,具有高度灵活性和可扩展性。在处理大量数据时,索引的优化是提升查询性能的关键。下面将介绍一些MongoDB索引优化的指南,帮助用户更好地利用索引来...【详细内容】
2023-12-18  Search: 大数据  点击:(72)  评论:(0)  加入收藏
Java与MySQL大数据处理的技巧
处理海量数据是现代应用程序中常见的挑战之一,尤其是在Java与MySQL这样的技术栈中。下面将介绍一些处理海量数据的技巧和策略,并讨论如何通过Java与MySQL实现高效的大数据处理...【详细内容】
2023-11-29  Search: 大数据  点击:(213)  评论:(0)  加入收藏
▌简易百科推荐
大数据杀熟何时告别“人人喊打却无可奈何”?
2月7日郑州飞往珠海的航班,不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历,引发社会广泛关注——用3个账号买同一航班同...【详细内容】
2024-01-30    中国青年网  Tags:大数据杀熟   点击:(32)  评论:(0)  加入收藏
简易百科:到底什么是大数据?
随着互联网的快速发展,大数据已经成为了当今社会最热门的话题之一。那么,到底什么是大数据呢?首先,我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】
2024-01-30    简易百科  Tags:大数据   点击:(40)  评论:(0)  加入收藏
数据采集新篇章:AI与大模型的融合应用
开篇在AIGC(人工智能与通用计算)应用中,大型语言模型(LLM)占据着举足轻重的地位。这些模型,如GPT和BERT系列,通过处理和分析庞大的数据集,已经极大地推动了自然语言理解和生成的边界...【详细内容】
2024-01-17  崔皓  51CTO  Tags:数据采集   点击:(51)  评论:(0)  加入收藏
挑战 Spark 和 Flink?大数据技术栈的突围和战争
十年的轮回,正如大数据的发展一般,它既是一个轮回的结束,也是崭新的起点。大数据在过去的二十年中蓬勃发展,从无到有,崛起为最具爆炸性的技术领域之一,逐渐演变成为每个企业不可或...【详细内容】
2024-01-17  InfoQ    Tags:大数据   点击:(40)  评论:(0)  加入收藏
分布式存储系统在大数据处理中扮演着怎样的角色?
如果存储节点本身可以定制,则通常会让其支持部分计算能力,以利用数据的亲和性,将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储,无法定制,则通常会将数据在计...【详细内容】
2023-12-19  木鸟杂记  微信公众号  Tags:大数据   点击:(48)  评论:(0)  加入收藏
大数据如何实时拯救生命:车联网的数据分析有助预防交通事故
译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大,尤其是当电动汽车成为汽车市场新的增长引擎。问题是:用户的数据平台准备...【详细内容】
2023-12-19    51CTO  Tags:大数据   点击:(41)  评论:(0)  加入收藏
利用生成对抗网络进行匿名化数据处理
在互联网时代,数据日益成为人们的生产资料。然而,在某些情况下,我们需要分享数据,但又需要保护个人隐私。这时,匿名化技术就显得尤为重要。本文将介绍利用生成对抗网络进行匿名化...【详细内容】
2023-12-18  技巧达人小影    Tags:数据处理   点击:(57)  评论:(0)  加入收藏
盘点那些常见的数据中心类型,你知道几个?
在数字化潮流的浪潮下,数据中心如同企业的神经系统,关系到业务的稳健运转。而在这个巨大的网络中,各种数据中心类型如雨后春笋般崭露头角。从企业级的个性至云数据中心的虚拟化...【详细内容】
2023-12-07  数据中心之家  微信公众号  Tags:数据中心   点击:(65)  评论:(0)  加入收藏
数据中心的七个关键特征
随着信息技术的不断演进,数据中心的可靠性、可扩展性、高效性、安全性、灵活性、管理性和可持续性成为业界探讨的焦点。下面让我们一同深入剖析这些关键特征,了解它们是如何影...【详细内容】
2023-12-06  数据中心之家  微信公众号  Tags:数据   点击:(63)  评论:(0)  加入收藏
什么是数据解析?将数据转化为更好的决策
什么是数据解析?数据解析是一门专注于从数据中获取洞察力的学科。它包含数据分析(data analysis)和管理的流程、工具和技术,包括数据的收集、组织和存储。数据解析的主要目的是...【详细内容】
2023-12-06  计算机世界    Tags:数据解析   点击:(62)  评论:(0)  加入收藏
站内最新
站内热门
站内头条