您当前的位置:首页 > 电脑百科 > 数据库 > 百科

10个数据可视化技巧,让你一看就懂

时间:2019-12-13 10:53:14  来源:  作者:

来源:数据分析1480

ID:lsxxx2011

作者:数据分析1480

 

10个数据可视化技巧,让你一看就懂

 

 

我必须对你说实话:当我学习数据科学时,我完全低估了绘图的重要性。没错,那时一切都一团糟:我从头开始学习 Python、熟悉了所有可能的算法、理解了所有东西背后的数学原理,但是我的绘图技巧很糟糕。

 

为什么会这样?我们总是在做同样的事情。你知道的:pairplots,distplots,qqplots…你在可视化数据时使用图表是理解数据的唯一方法。这些都是非常有用、通用和默认的图表。所以,复制和粘贴一堆代码成了我时最常做的事情。

 

10个数据可视化技巧,让你一看就懂

 

 

对于我的项目来说,可交付结果总是一个模型。由于数小时的数据清洗和特征工程,很可能会有一个不错的分数。我是我项目的唯一参与者,我的教授们在他们给我这些数据时就已经知道关于数据的一切。那我作图是为了给谁看?我自己?好吧…没必要!对不?我比任何人都清楚每一步在实现什么,我不需要向任何人解释。

 

我相信这可能是我在数据科学中的最大失败:没有充分考虑可解释性和可解释性的重要性。你可能是个天才,但如果你不能向第三方解释你是如何得到这些美妙的结论,以及为什么得到这些结论,那么你可能什么都不是。

 

例如,在 Ravelin Technology,我们提供基于机器学习的欺诈预防解决方案。想象一下,你告诉一个客户,你封锁了 x% 的交易,只是因为机器学习模型是这样说的,但你根本不知道为什么要这样做会怎样?当然,对于任何试图最大化环化率和销售情况的电子商务来说,这都不是很有吸引力,对吧?想象一下,在医疗保健等其他敏感领域出现同样的情况……那简直是灾难即将来临的千兆。

 

现在,除了与业务相关的问题,甚至从法律的角度或者从你的业务只关心预测的结果来看——不管你如何得到它们,理解一个算法实际上是如何工作的对你会有帮助。你不仅能更好地向客户解释输出的原因,还能更好地协调数据科学家和分析师的工作。

 

能够向人们解释你的思维过程是任何数据相关工作的关键部分。在这种情况下,复制和粘贴图表是不够的,图表的个性化变得非常重要。

 

在这篇文章的剩余部分,我想和大家分享 10 个基本的中级和高级的绘图工具。我发现在现实生活中,当涉及到绘图解释你的数据时,这些工具非常有用。

 

我将在下面几行中引用的库:

Seaborn:import seaborn as snsmatplotlib:matplotlib.pyplot as plt

 

此外,如果需要,可以设置样式和你喜欢的格式,例如:

 

​​​
plt.style.use('fivethirtyEight')%config inlinebackend.figureformat='retina'%matplotlib inline

 

说到这里,让我们直接跳到这些工具:

 

绘制符合图

 

有时,你会想在一个图表中绘制出不同的东西。但有时,你会希望在同一行或列中抛出不同的图表,相互补充和/或显示不同的信息片段。

 

为此,这里给出一个非常基本但必不可少的工具:subplots。如何使用它?很简单。matplotlib 中的图表是一种结构,可以这样使用:

 

图形:绘制图表的背景或画布

轴:我们的图表

 

通常,这些东西是在代码后台自动设置的,但是如果要绘制多个图形,我们只需要按照以下方式创建图形和轴对象:

 
fig, ax = plt.subplots(ncols=number_of_cols, nrows=number_of_rows, figsize=(x,y)

 

例如,如果设置 ncols=1 和 nrows=2,我们将创建一个由 x,y 轴组成的图形,其中只有两个图表,分布在两个不同的行中。剩下的唯一事情是从 0 开始使用'ax'参数指定不同绘图的顺序。例如:

 

​​​​​​​
sns.scatterplot(x=horizontal_data_1, y=vertical_data_1, ax=ax[0]);sns.scatterplot(x=horizontal_data_2, y=vertical_data_2, ax=ax[1]);

 

轴标签

 

这可能看起来没有必要,或者不是很有帮助,但是你无法想象,如果你的图表有点混乱,或者看到数据的人对此不是很熟悉,你会被问多少次 x/y 轴代表的是什么。按照前面的两个绘图示例,如果要为轴设置特定名称,则必须使用以下代码行:

​​​​​​​
ax[0].set(x label='My X Label',ylabel='My Y Label')ax[1].set(xlabel='My Second X Label',ylabel='My Second and Very Creative Y Label')

 

设置标题

 

如果我们要将数据呈现给第三方,另一个基本但关键的要点是使用标题,它和之前的轴标记非常相似:

​​​​​​​
ax[0].title.set_text(‘This title has to be very clear and explicative’)ax[1].title.set_text(‘And this title has to explain what’s different in this chart’

 

给图表重点元素做注释

 

通常情况下,仅仅在图表的左右两侧使用刻度本身并不是很清楚。在图上标注值对于解释图表非常有用。

 

假设现在我们使用 subplots,我们有几个图表,其中一个是位于 ax[0] 位置的 seaborn 的 barplot。在这种情况下,在条形图中每个条上获取注释的代码要复杂一些,但很容易实现:

​​​​​​​
for p in ax[0].patches:ax[0].annotate(“%.2f” % p.get_height(), (p.get_x() + p.get_width() / 2., p.get_height()),ha=’center’, va=’center’, fontsize=12, color=’white’, xytext=(0, -10), textcoords=’offset points’

 

对于图表中的每个「patch」或条形图,直到「ha」参数获取条形图的位置、高度和宽度为止,以便将值注释放在正确的位置。以类似的方式,我们还可以指定注释的对齐方式、字体大小和颜色,而「xytext」参数指示我们是否要在某个 x 或 y 方向移动注释。在上面的例子中,我们将在 y 轴上向下移动注释文本。

 

使用不同颜色区分标签

 

在某些情况下,在一段时间或一系列的值中,我们可能测量了不同种类的物体。例如,假设我们测量 6 个月以来狗和猫的体重。在实验结束时,我们想画出每只动物的体重,分别用蓝色和红色区分猫和狗。为此,在大多数传统绘图中,我们可以使用参数「hue」为元素提供颜色列表。

 

举个例子:

​​​​​​​
weight = [5,4,8,2,6,2] month = [‘febrero’,’enero’,’abril’,’junio’,’marzo’,’mayo’] animal_type = [‘dog’,’cat’,’cat’,’dog’,’dog’,’dog’] hue = [‘blue’,’red’,’red’,’blue’,’blue’,’blue’] sns.scatterplot(x=month, y=weight, hue=hue);

 

10个数据可视化技巧,让你一看就懂

 

改变散点图中点的大小

 

使用上面的相同示例,我们还可以使用从 1 到 5 的刻度表示图表中动物的大小。将此额外指标添加到绘图中的一个好选择是修改散点图的大小,通过「size」参数将大小指定给新的附加向量,并使用「size」调整它们之间的关系:

 

​​​​​​​
size = [2,3,5,1,4,1]sns.scatterplot(x=month, y=weight, hue=hue, size=size, sizes= (50,300));

 

10个数据可视化技巧,让你一看就懂

 

 

顺便说一下,如果如上图所示,图例使绘图更难阅读,你可以将「legend」参数设置为 false。

 

在数据中包含一行以显示阈值

 

在现实生活中的许多情况下,数据高于或低于某个阈值可能是问题提示信号或错误警告。如果要在绘图中清楚地显示,可以使用以下命令添加一行:

 
ax[0].axvline(32,0,c='r')

 

加在哪里?

ax[0] 将是我们要在其中插入行的图表
32 将是绘制线的值
c = 'r' 表示图表将是红色的


 

如果我们使用的是 subplots,那么将 axvline 添加到相应的 axe 就很简单,如上面的示例所示。但是,如果不使用 subplots,则应执行以下操作:

 

​​​​​​​
g=sns.scatterplot(x=month,y=weight,hue=hue,legend=false)g.axvline(2,c='r')plt.show()

 

10个数据可视化技巧,让你一看就懂

 

 

多Y轴绘图

 

这可能是最简单,但也是最有用的技巧之一。

有时我们只需要在图表中添加更多信息,除了在绘图的右 y 轴上添加新的度量之外,没有其他方法可以绕过它:

 

ax2=ax[0].twinx()

 

现在可以添加任何要将「ax」参数指向「ax2」的图表

 
sns.lineplot(x=month, y=average_animal_weight, ax=ax2

 

请注意,这个例子再次假设你使用的是 subplots。如果没有,你应该遵循与前一点相同的逻辑:

 

​​​​​​
g = sns.scatterplot(x=month, y=weight, hue=hue, legend=False)g.axvline(2,c=’r’)ax2 = g.twinx()sns.lineplot(x=month, y=average_animal_weight, ax=ax2, c=’y’)plt.show()

 

10个数据可视化技巧,让你一看就懂

 

 

请注意,要使其工作,你应该为两个图表中的 x 轴设置始终相同的数据。否则,它们就不匹配了。

 

重叠绘图和更改标签和颜色

 

在同一轴上重叠图表很容易:我们只需要为所有想要的绘图编写代码,然后,我们可以简单地调用'plt.show()'将它们全部绘制在一起:

 

​​​​
a=[1,2,3,4,5]b=[4,5,6,2,2]c=[2,5,6,2,1]sns.lineplot(x=a,y=b,c='r')sns.lineplot(x=a,y=c,c='b')plt.show()

 

10个数据可视化技巧,让你一看就懂

 

然而,有时重叠会导致混淆,所以我们可能需要做一些改进,让人更容易理解。

 

例如,假设你希望在同一个图形中重叠你采集的两个不同样本的身高分布:一个来自你的同事,另一个来自当地的篮球队。最好添加一些个性化的东西,如不同的颜色,并添加一个图例,表明它们具体代表的是哪一个。好吧,简单点:

 

设置「colour」标签,我们可以为每一个设置一种特定的颜色。请注意,有时此参数可以更改为简单的「c」

 

使用「label」参数,我们可以通过简单地调用 x.legend()用来指定要显示的任何文本

 

举个例子:

​​​​​​​
g = sns.distplot(workmates_height, color=’b’, label=’Workmates’)sns.distplot(basketball_team, color=’r’, ax=g, label=’Basket team’)g.legend()plt.show()

 

10. 在条形图中设置轴的顺序

 

最后是一个非常特殊的工具~如果你喜欢使用条形图,你可能会面临这样的问题:你的条形图没有按照你想要的顺序排列。在这种情况下,有一个简单的修复方法,将一个带有你想要的特定顺序的列表传递给「order」参数:

​​​​​​​
a=['second','first','third']b=[15,10,20]sns.barplot(x=a,y=b,order=['first','second','third']);

 

10个数据可视化技巧,让你一看就懂

 

 

绘图本身就是一个世界,根据我的经验,提高你技能的最好方法就是练习。但我希望这些工具和技巧能帮助你做好现实中数据科学的工作,就像当初帮助我一样。



Tags:数据可视化   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
今天详解一个 Python 库 Streamlit,它可以为机器学习和数据分析构建 web app。它的优势是入门容易、纯 Python 编码、开发效率高、UI精美。 上图是用 Streamlit 构建自动驾驶...【详细内容】
2021-12-09  Tags: 数据可视化  点击:(24)  评论:(0)  加入收藏
利用Python实现中国地铁数据可视化。废话不多说。让我们愉快地开始吧~开发工具Python版本:3.6.4相关模块:requests模块;wordcloud模块;pandas模块;numpy模块;jieba模块;pyecharts模...【详细内容】
2021-12-08  Tags: 数据可视化  点击:(34)  评论:(0)  加入收藏
今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式,后端架构设计采用微服务架构模式。 前端技术:Angularjs、Jq...【详细内容】
2021-11-04  Tags: 数据可视化  点击:(40)  评论:(0)  加入收藏
数据可视化是处理数据的基本操作,如果想进一步从数据中获取更多信息,就要先将数据做可视化处理。有一些工具会帮助我们更好的呈现数据,优秀的数据可视化工具有如下:Google Chart...【详细内容】
2021-09-16  Tags: 数据可视化  点击:(62)  评论:(0)  加入收藏
01.什么是大数据?数据是对客观事实进行记录的一种符号,可以是数字、文字,也可以是图片、音频、视频。大数据是指无法在一定时间范围内用常规软件进行捕捉、管理和数据的数据集...【详细内容】
2021-06-25  Tags: 数据可视化  点击:(78)  评论:(0)  加入收藏
数据可视化用专业术语来就是通过视觉的方式向人类展示数据,这种在文本基础上的图表即简单又实用,而且相关性、趋势分析都非常明确,也非常可靠,通过图表一目了然。用通俗的话说就...【详细内容】
2021-06-11  Tags: 数据可视化  点击:(106)  评论:(0)  加入收藏
我是一名数据分析师,常常需要处理大量的数据,苦于找不到合适的工具,一直用的excel做数据分析,但是大家都知道,excel的可视化能力有限,一行行的黑白文字我看到两眼发黑,效率还很低,后...【详细内容】
2021-06-11  Tags: 数据可视化  点击:(106)  评论:(0)  加入收藏
Serial Studio是一个多平台,多用途的串行数据可视化程序。该项目的目标是使嵌入式开发人员和制造商可以轻松地可视化,呈现和分析其项目和设备生成的数据,而无需为每个项目编写...【详细内容】
2021-04-14  Tags: 数据可视化  点击:(645)  评论:(0)  加入收藏
你没看错,全部都是推荐指数五颗星的数据可视化工具,无门槛,不挑人,面向小白和非专业人员,人人可用,按自身适应度及喜好选择即可。 1 Excel惊艳到不认识的数据可视化工具!!这个我们已...【详细内容】
2021-01-27  Tags: 数据可视化  点击:(174)  评论:(0)  加入收藏
时间序列数据在许多不同的行业中都非常重要。它在研究、金融行业、制药、社交媒体、网络服务等领域尤为重要。对时间序列数据的分析也变得越来越重要。在分析中有什么比一...【详细内容】
2020-11-20  Tags: 数据可视化  点击:(68)  评论:(0)  加入收藏
▌简易百科推荐
1增1.1【插入单行】insert [into] <表名> (列名) values (列值)例:insert into Strdents (姓名,性别,出生日期) values (&#39;开心朋朋&#39;,&#39;男&#39;,&#39;1980/6/15&#3...【详细内容】
2021-12-27  快乐火车9d3    Tags:SQL   点击:(2)  评论:(0)  加入收藏
最近发现还有不少做开发的小伙伴,在写存储过程的时候,在参考已有的不同的写法时,往往很迷茫, 不知道各种写法孰优孰劣,该选用哪种写法,以及各种写法的优缺点,本文以一个简单的查询...【详细内容】
2021-12-23  linux上的码农    Tags:sql   点击:(9)  评论:(0)  加入收藏
《开源精选》是我们分享Github、Gitee等开源社区中优质项目的栏目,包括技术、学习、实用与各种有趣的内容。本期推荐的HasorDB 是一个全功能数据库访问工具,提供对象映射、丰...【详细内容】
2021-12-22  GitHub精选    Tags:HasorDB   点击:(5)  评论:(0)  加入收藏
作者丨Rafal Grzegorczyk译者丨陈骏策划丨孙淑娟【51CTO.com原创稿件】您是否还在手动对数据库执行各种脚本?您是否还在浪费时间去验证数据库脚本的正确性?您是否还需要将...【详细内容】
2021-12-22    51CTO  Tags:Liquibase   点击:(4)  评论:(0)  加入收藏
场景描述:由于生产环境的表比较复杂,字段很多。这里我们做下简化,只为说明今天要聊的问题。有两张表 tab1,tab2: tab1 数据如下: tab2 数据如下: 然后给你看下,我用来统计 name=&#3...【详细内容】
2021-12-20  Bald    Tags:SQL   点击:(7)  评论:(0)  加入收藏
前言知识无底,学海无涯,知识点虽然简单,但是比较多,所以将MySQL的基础写出来,方便自己以后查找,还有就是分享给大家。一、SQL简述1.SQL的概述Structure Query Language(结构化查...【详细内容】
2021-12-16  谣言止于独立思考    Tags:SQL基础   点击:(13)  评论:(0)  加入收藏
前言作为一名测试工程师,工作中在对测试结果进行数据比对的时候,或多或少要和数据库打交道的,要和数据库打交道,那么一些常用的 SQL 查询语法必须要掌握。最近有部分做测试小伙...【详细内容】
2021-12-14  柠檬班软件测试    Tags:SQL   点击:(15)  评论:(0)  加入收藏
话说C是面向内存的编程语言。数据要能存得进去,取得出来,且要考虑效率。不管是顺序存储还是链式存储,其寻址方式总是很重要。顺序存储是连续存储。同质结构的数组通过其索引表...【详细内容】
2021-12-08  小智雅汇    Tags:数据存储   点击:(18)  评论:(0)  加入收藏
概述DBConvert Studio 是一款强大的跨数据库迁移和同步软件,可在不同数据库格式之间转换数据库结构和数据。它将成熟、稳定、久经考验的 DBConvert 和 DBSync 核心与改进的现...【详细内容】
2021-11-17  雪竹聊运维    Tags:数据库   点击:(26)  评论:(0)  加入收藏
一、前言 大家好,我是小诚,《从0到1-全面深刻理解MySQL系列》已经来到第四章,这一章节的主要从一条SQL执行的开始,由浅入深的解析SQL语句由客户端到服务器的完整执行流程,最...【详细内容】
2021-11-09  woaker    Tags:SQL   点击:(35)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条