您当前的位置:首页 > 互联网百科 > 大数据

大数据:如何在大数据挖掘时做预处理

时间:2022-07-11 14:24:23  来源:  作者:微说互联网
大数据:如何在大数据挖掘时做预处理

 

在我们平时进行数据挖掘建模时,一般首先得对数据进行预处理,其中常用的方法包括缺失值处理、共线性处理、异常值处理、数据标准化、数据归一化等。

缺失值处理

有时样本的数据获取不全,部分特征可能存在缺失值或无效值。对于这种情况,需要对数据进行缺失值处理,否则可能会导致模型训练失败。

对于缺失值的处理,需要用一个有效的数据来填补上,通常做法是用每一个特征的全局平均值来代替无效值。

Python/ target=_blank class=infotextkey>Python中,有一个专门的 Imputer 类来处理缺失值。

from sklearn.preprocessing import Imputer
import numpy as np

#导入要进行缺失值处理的数据文件
data = np.genfromtxt('input.csv', skip_header=True, delimiter=',')

#无效值在数据文件中的标识是'NAN', strategy='mean'表示用全局平均值代替无效值,axis=0表示对列进行处理
imp = Imputer(missing_values='NAN', strategy='mean', axis=0)

#训练一个缺失值处理模型
imp.fit(data)

outfile = imp.transform(data)

#存储到本地
np.savetxt('output.csv', outfile, delimiter=',')

数据标准化

数据标准化是将数据按比例缩放,使之落入一个小的特定区间,目的在于去除数据的单位限制,转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。归一化处理也是数据标准化处理的一种特殊形式。

下面的代码展示了z-score标准化,preprocessing 模块的 scale() 方法可实现标准化。经过处理后,数据的均值为0,标准差为1。

from sklearn import preprocessing

import numpy as np

data = np.genfromtxt('input.csv', skip_header=True, delimiter=',')

#对一个数据集进行Z标准化
zdata = preprocessing.scale(data)

np.savetxt('z_core_out.txt', zdata, delimiter=',')

数据归一化是把每个特征都缩到0-1之间时,可以用如下代码。

min_max_scale = preprocessing.MinMaxScaler()

min_max_data = min_max_scale.fit_transform(data)

np.savetxt('min_max_out1.csv', min_max_data, delimiter=',')

多重共线性

当自变量之间存在共线性时, 模型的参数会变得极其不稳定, 模型的预测能力会下降。很难确切区分每个自变量对因变量的影响, 因此增加了对于模型结果解释的成本。

导致出现变量间共线性的原因可能包括:

  • 数据样本不够,导致共线性存在偶然性。
  • 多个变量都基于时间有共同或相反的演变趋势。
  • 多个变量间存在一定的推移关系,但总体上变量间的趋势一致,只是发生的时间点不一致。
  • 多个变量间存在近似线性相关的关系。

解决共线性问题的常用方法包括:

  • 增大样本量:通过增加样本量,来消除由于数据量不足而出现的偶然共线性现象。
  • 岭回归分析(Ridge Regression):岭回归分析是一种专用于共线性问题的有偏估计回归方法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价来获得更实际和可靠性更强的回归系数。
  • 逐步回归法(Stepwise Regression):逐步回归法是每次引入一个自变量并进行统计检验,然后逐步引入其他自变量,同时对所有变量的回归系数进行检验。如果原来引入的变量由于后面变量的引入而变得不再显著,那么就将其剔除,逐步得到最优回归方程。
  • 主成分回归(Principal Components Regression):通过主成分分析,将原始参与建模的变量转换为少数几个主成分,每个主成分是原变量的共线性组合。然后基于主成分做回归分析,这样也可以在不丢失重要数据特征的前提下避开共线性问题。
  • 人工去重:直接结合人工经验,对参与回归模型计算的自变量进行删减,也是一个较为常用的方法,但这种方法需要操作者对于业务、模型和数据都有相对深入的理解。

分类变量处理

分类变量是指一个变量只能取到有限数量的值。比如一项关于健身产业的市场调查,日常锻炼的频率提供了四个选项:“从不”、“偶尔”、“每周一次”或“每周多次”。在这种情况下,数据是分类的,因为答案属于一组固定的类别。再如汽车品牌的调查,汽车品牌的数据也是分类的。

如果将分类变量的数据直接输入到机器学习模型而不首先对其进行预处理的话,就会出现错误。处理分类变量数据的常用预处理方法是:序数编码和One-Hot 编码。

序数编码(Ordinal Encoding):将每个唯一值分配给不同的整数。如下例:关于是否吃早餐的调查,包括了每天、从不、偶尔和经常几个不同的类别。

大数据:如何在大数据挖掘时做预处理

序数编码

这些类别本身具有天然的排序关系,因此可以用序数编码来定义类别:“从不”(0)<“偶尔”(1)<“经常”(2)<“每天”(3)。

One-hot 编码(One-hot Encoding)

对于本身不具有排序关系的分类变量,可以采用One-hot编码。下面举一个One-hot编码的例子。

大数据:如何在大数据挖掘时做预处理

One-hot编码

在原始数据集中,“颜色”是一个分类变量,具有“红色”、“黄色”和“绿色”三个类别。对应的 one-hot 编码的每一列代表着每个可能值。如果原始值为“红色”,在“红色”列中输入 1,其他列为0;其他颜色的原始值依此类推。

与序数编码相比,one-hot 编码不假设类别的排序。因此,如果分类数据中没有明确的顺序,可以期望one-hot编码是行之有效的。

不平衡性处理

数据不平衡经常出现在分类问题上,数据不平衡指的是在数据集中不同类别的样本数量差距很大。对于很多实际业务场景,不同类别的样本先天就是不平衡的。

样本类别分布不均衡从数据规模上可以分为大数据分布不均衡和小数据分布不均衡。大数据分布不均衡整体数据规模大,只是小样本类占比比较少,比如1000W:50W,但小样本还是可以覆盖大部分或者全部的特征。小数据分布不均衡是小样本包含特征过少,机器难以取得规律,即使取得也会出现过拟合,模型的准确性和健壮性会很差。对于严重的样本不均衡,也没有合适的解决办法

对于大数据分布不均衡,可以通过数据预处理或者模型上面想办法解决。在模型上可以通过参数调整,或者集成学习的方法解决。本文主要说下数据预处理的办法。

1. 过采样

对少数数据进行有放回的过采样,使原本的数据变得均衡,这样就是对少数数据进行了复制,容易造成过拟合。

2. 欠采样

对多数数据进行有放回/无放回的欠采样,这样会丢失一些样本,损失信息,模型只学会了整体模式的一部分,容易欠拟合。

3.SMOTE算法

概括来说SMOTE算法是通过“插值”来为少数类合成新的样本,来弥补少数类样本的不足。主要过程如下。

  • 采用最近邻算法,计算每个少数样本的K个近邻
  • 从K个近邻中随机选择一些样本进行线性插值
  • 构造新的少数样本
  • 新样本与原数据结合,形成新的训练集

在数据挖掘前的预处理非常重要,会直接影响到模型的训练效果,本文列出了主要的数据预处理要解决的问题以及对应方法,希望大家都能取得好的效果。



Tags:大数据   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
10月28日,国务院办公厅发布《全国一体化政务大数据体系建设指南》(以下简称《指南》),要求各地区各部门按照《指南》要求,加强数据汇聚融合、共享开放和开发利用,促进数据依法有...【详细内容】
2022-10-31  Tags: 大数据  点击:(9)  评论:(0)  加入收藏
引言 大数据统计是特别厉害的,举一个最为简单的例子,就像很多人在闲暇的时光里,都会选择看短视频。 当我们看到了同类型的短视频,并且点赞之后,就会发现在无形中推送出来的视频都...【详细内容】
2022-09-23  Tags: 大数据  点击:(36)  评论:(0)  加入收藏
现在是数码时代,手机可谓人手一部,长期随身携带。所以手机的移动轨迹也代表了人的行踪。可以说,在数字化、智能化的时代,一个人的轨迹是有“数字”可循的。很多人可能会被大数...【详细内容】
2022-09-23  Tags: 大数据  点击:(43)  评论:(0)  加入收藏
其实,在互联网时代,每个人都是透明的。你在注册各种账号时,基本已经把个人信息泄露出去了。当你看新闻,刷短视频,网络购物时,大数据就会根据你的平时喜欢,不断推送类似的内容和商品给你。...【详细内容】
2022-09-13  Tags: 大数据  点击:(55)  评论:(0)  加入收藏
最近,包括清华北大在内的北京不少大学都公布了大一新生的大数据,数据维度很丰富,但新生来源的高中学校分布数据并不是每个学校都公布了。今天将已有的信息给大家做一个简单的盘...【详细内容】
2022-09-01  Tags: 大数据  点击:(134)  评论:(0)  加入收藏
先说观点:因为还没找到更好的。接下来说原因,首先来看看大数据平台都在干什么。原因结构化数据计算仍是重中之重大数据平台主要是为了应对海量数据存储和分析的需求,海量数据存...【详细内容】
2022-08-25  Tags: 大数据  点击:(64)  评论:(0)  加入收藏
可能大家都看过“留学花费50w,毕业月薪5k”类似的新闻,有人甚至算了一笔账,发现十几年都没办法把留学的钱挣回来?这是真的吗?如果是真的,为什么还有这么多人纷纷去留学呢?或许一...【详细内容】
2022-08-23  Tags: 大数据  点击:(37)  评论:(0)  加入收藏
其实大数据行业发展到现在,最大的痛点并不是数据的可视化和分析问题。而是庞大业务数据的预处理。 NO.1 80%-90%的项目时间大量花费在将不同来源的业务系统中的数据传输到同...【详细内容】
2022-08-18  Tags: 大数据  点击:(69)  评论:(0)  加入收藏
图1. 过渡金属离子在局域环境中的配位偏好(离子的“形状”)从原子尺度理解化合物“结构-物性”间的构效关系是物质科学领域的基本问题,深入细致地厘清物质微观局域结构的统计特...【详细内容】
2022-08-11  Tags: 大数据  点击:(52)  评论:(0)  加入收藏
这几年愈演愈烈的大数据杀熟,也让消费者苦不堪言,一些电商平台给用户贴标签,美其名曰”推荐用户会喜欢的商品”,实际上,一旦某一个种类被打上高价消费标签,那么出现的其他种类也会...【详细内容】
2022-08-08  Tags: 大数据  点击:(57)  评论:(0)  加入收藏
▌简易百科推荐
数据分析是诊断账户最基本的技能,通过数据的分析,发现问题、解决问题。首先我们要有一个清晰的逻辑:分析数据的目的,收集数据的途径,整理数据的方法,分析思路,最后得出结论。今天跟...【详细内容】
2022-10-12  学院小助手  搜狐号  Tags:数据分析   点击:(42)  评论:(0)  加入收藏
引言 大数据统计是特别厉害的,举一个最为简单的例子,就像很多人在闲暇的时光里,都会选择看短视频。 当我们看到了同类型的短视频,并且点赞之后,就会发现在无形中推送出来的视频都...【详细内容】
2022-09-23  互联网资讯看板   网易号  Tags:大数据   点击:(36)  评论:(0)  加入收藏
现在是数码时代,手机可谓人手一部,长期随身携带。所以手机的移动轨迹也代表了人的行踪。可以说,在数字化、智能化的时代,一个人的轨迹是有“数字”可循的。很多人可能会被大数...【详细内容】
2022-09-23  爱家临江1l9  今日头条  Tags:大数据   点击:(43)  评论:(0)  加入收藏
一、关联分析关联分析,也叫作“购物篮分析”,是一种通过研究用户消费数据,将不同商品之间进行关联,并挖掘二者之间联系的分析方法。关联分析目的是找到事务间的关联性,用以指导决...【详细内容】
2022-09-21  数据不吹牛   网易号  Tags:数据分析   点击:(84)  评论:(0)  加入收藏
目录 1. Shopee 数据系统建设中面临的典型问题 2. 为什么选择 Hudi 3. Shopee 在 Hudi 落地过程中的实践 4. 社区贡献 5. 总结与展望湖仓一体(LakeHouse)作为大数据领域的重...【详细内容】
2022-09-14  Lakehouse  今日头条  Tags:Apache Hudi   点击:(50)  评论:(0)  加入收藏
其实,在互联网时代,每个人都是透明的。你在注册各种账号时,基本已经把个人信息泄露出去了。当你看新闻,刷短视频,网络购物时,大数据就会根据你的平时喜欢,不断推送类似的内容和商品给你。...【详细内容】
2022-09-13  数字财经智库  搜狐网  Tags:大数据   点击:(55)  评论:(0)  加入收藏
数据开发技术方向主要有数据仓库、在线分析处理(OLAP)以及数据挖掘三部分组成。一、数据仓库:架构1.数据仓库 Data Warehouse,DW数据仓库是构建面向分析的集成化数据环境,为企业...【详细内容】
2022-08-29  华夏金领大数据  今日头条  Tags:数据开发   点击:(64)  评论:(0)  加入收藏
《开源精选》是我们分享Github、Gitee等开源社区中优质项目的栏目,包括技术、学习、实用与各种有趣的内容。本期推荐的是一个开源机器学习和数据可视化工具&mdash;&mdash;ora...【详细内容】
2022-08-25  互联网资讯看板   网易  Tags:数据可视化   点击:(189)  评论:(0)  加入收藏
近几年,因为数据分析行业的繁荣,很多人选择入行或者转行做数据分析。比较突出的表现就是在知乎上搜索数据分析,出现的大多是关于如何转行数据分析的提问。但是,小编想说,在你对一...【详细内容】
2022-08-25  互联共商   网易  Tags:数据分析   点击:(50)  评论:(0)  加入收藏
先说观点:因为还没找到更好的。接下来说原因,首先来看看大数据平台都在干什么。原因结构化数据计算仍是重中之重大数据平台主要是为了应对海量数据存储和分析的需求,海量数据存...【详细内容】
2022-08-25  大数据推荐杂谈    Tags:大数据平台   点击:(64)  评论:(0)  加入收藏
站内最新
站内热门
站内头条