您当前的位置:首页 > 互联网百科 > 云计算

宕机时间少七倍,揭秘AWS基础设施的运维之道

时间:2020-12-18 11:01:30  来源:  作者:

从2006年8月份正式开通云服务,到2020年第三季度收入达到116亿美元,同比增长29%,年化收入达到460亿美元。AWS营收规模在一个IT产业史上堪称神话,这背后数据中心等基础设施功不可没。如果没有强大的数据中心作为支撑,为全球数以万计用户提供各种各样云服务,AWS不可能连续多年保持如此惊人的增长速度。

一直以来,AWS的数据中心无论是数量、规模、设计、运营都充满神秘感,外界对其是知之甚少,也是业界众多伙伴十分感兴趣的。在今年的AWS re:Invent大会上,AWS 全球基础架构和客户支持资深副总裁 Peter DeSantis甩出诸多干货,详细介绍了AWS的数据中心在面向全球服务众多用户是如何做到稳定、定制和环保的。

任何设备都会坏

数据中心等基础设施是云服务商的核心命脉,由于大部分云服务商随着业务的增长,其数据中心的规模和设备数量也会随之膨胀,带来的就是数据中心故障和宕机风险的增长。AWS作为全球云计算巨头,其数据中心规模无出其右,它又是如何看待风险以及解决风险的。

“不要去回避各种故障,因为任何设备都会坏,你需要做的就是预测什么时候坏,并且做好准备。”--这就是AWS在数据中心基础设施运营和维护的核心原则。也正是在这个原则的指导下,AWS一年的平均宕机时间比2018年规模次大的云端供应商少七倍之多。

宕机时间少七倍,揭秘AWS基础设施的运维之道

 

面对规模如此之大、复杂性如此高的数据中心基础设施,AWS的首先思路就是降低各种设备的复杂性,比如发电机组的配电系统和UPS,这些都是传统厂商生产的通用型产品,往往拥有丰富的功能和极高的复杂性,“部件越复杂的东西意味着坏的概率就越大。配电系统的控制系统是嵌入式系统,非常复杂,很多功能其实并不是AWS所需要的。” AWS大中华区产品部计算与存储总监周舸介绍道。

为此,AWS的思路就是降低产品的复杂性,既符合自身业务需求,又提升了运维的简易性。比如,AWS针对自身情况做了一套控制器系统,一旦有问题发生,可以马上进行修改,做到尽量不影响到用户业务;又如,AWS将数据中心UPS电池做小,通过自己的软件来控制UPS,当每个单元设备出现问题时,其所带来的麻烦也下降很多。

除了数据中心部件级的运维之外,AWS对于整个地理区域的可用区都有着全面的保护机制。据悉,AWS 细分地理区域和可用区(AZ),这与其他云提供商有很大不同:首先,远距离的可用区设置,可以降低自然灾难(火灾,水灾…)带来的业务中断风险;其次,用户选择最近站点接入以低延迟访问AWS云资源;第三, AWS分别管理每个区域中的运维,将故障分割;

“从最小的零件,到整个可用区的架构,AWS是一层层思考如果发生了故障或者宕机会给用户带来哪种影响,并且尽量不影响到用户的业务。”周舸补充道。

定制芯片,让数据中心发挥极致

在数据中心等基础设施中,芯片担当着计算的重任,对于整个数据中心的能耗、效率、性能、运维等都有着重要影响。同样,AWS在针对不同应用和需求定制芯片上也在持续发力,持续打造数据中心的极致能。

在AWS Nitro方面,已经成为数据中心物理资源的一个抽象层,AWS 云平台通过 AWS Nitro 控制器向 Amazon EC2 添加网络,存储和安全资源。今年,Nitro已经成功发展到第四代。

在刚刚推出的Amazon EC2 mac计算实例中,就是AWS通过在在 Mac Mini 上安装了 Nitro Controller,没有 Hypervisor 的Nitro Controller可以安全快速地连接到 Mac Mini。那些为iphone、iPad、Mac、Apple Watch、Apple TV和Safari开发应用的开发人员,可以通过使用EC2 Mac实例,在几秒钟内配置和访问macOS环境,根据需求动态扩展容量。

宕机时间少七倍,揭秘AWS基础设施的运维之道

 

AWS Graviton 是基于 ARM 的芯片组,今年推出了AWS Graviton 2作为通用处理器;高性价比的 AWS Graviton 2 不仅可以很好地处理前端工作负载,对于 IO 密集型工作负载也很友好。

事实上,当前芯片处理器已经发展到一个十字路口,最近几年以来,芯片处理器能力的提升一直不太明显,芯片频率提升在减慢,取而代之的是芯片核心数在不断提升,处理器走向并行处理的趋势明显。

“有三个条件在影响多核处理器的发展。首先是多核操作系统;其次是多核应用程序;另外一个就是微服务。2015年之后,容器、无服务等微服务化发展迅速,微服务将工作负载切分的很细,这就对计算资源要求很细,特别是和多核架构。”周舸透露。

现在传统处理器因为需要兼容传统工作负载,所以芯片越做越大、越来越复杂,增加了很多功能,比如SMT多线程控制组件,SMT虽然可以多个线程共享和共用计算资源,但也会带来工作负载不平衡、性能容易受影响以及安全隐患等问题。“Graviton 2这样的多核处理器就能很好地解决这些问题。”周舸表示。

可再生能源,让数据中心走向环保

有人统计,目前全球数据中心的电力消耗总量已经占据了全球电力使用量的百分之三,到2025年,全球数据中心使用的电力总量按现在的电力价格来估算的话,将会超过百亿美元,年均复合增长率将达到6%。随着全球数字化脚步的提速,未来对于超大型数据中心的需求也上升。AWS作为超大型数据中心的运营者,其对于数据中心走向环保的步伐正在持续加速。

环保,也是今年 Peter DeSantis在re:Invent大会上演讲的一个核心议题。

据悉,AWS 致力于以尽可能环保的方式运营业务,并实现全球基础设施 100% 使用可再生能源。AWS 正朝着到 2025 年 100 % 利用可再生能源的道路前进,比其最初的 2030 年目标提前了五年。

宕机时间少七倍,揭秘AWS基础设施的运维之道

 

为此,AWS 用多项举措来提高用水的效率,减少用于冷却数据中心的饮用水的使用。AWS 通过评估每个 AWS 区域的气候模式、当地水资源管理和可用性以及保护饮用水水源的机会来制定用水战略。

此外,亚马逊宣布了五个新的公用事业规模的太阳能项目,为中国、澳大利亚和美国的全球业务提供电力,一共增加 615 MW 再生能源发电能力,预计每年发电 120 万 MW。

2020 年亚马逊对可再生能源的总投资项目已达到 35 个,装机容量超过 4 GW,这也是目前世界上单一企业在1年内对可再生能源的最大的一笔投资。这些新项目将使亚马逊所拥有的可再生能源的的总装机容量在 2020 年达到 6.5 GW,并成为有史以来最大的企业可再生能源采购商。

事实上,AWS对于数据中心环保的投入,不仅仅是对于自身成本的一直控制,更是践行环保理念的责任体现。面向未来,AWS在数据中心基础设施领域的建设理念必然会影响到全球更多用户和同行,为基础设施发展带来全新的思考。



Tags:AWS   点击:()  评论:()
声明:本站部分内容来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除,谢谢。
▌相关评论
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
▌相关推荐
从2006年8月份正式开通云服务,到2020年第三季度收入达到116亿美元,同比增长29%,年化收入达到460亿美元。AWS营收规模在一个IT产业史上堪称神话,这背后数据中心等基础设施功不可...【详细内容】
2020-12-18   AWS  点击:(0)  评论:(0)  加入收藏
【环球网科技报道】我们正在经历怎样的计算时代?AWSCEO 安迪·杰西(AndyJassy)看来,计算正不断被重塑。“传统的人们运行计算的方式都是通过设备、知识应用或者计算资源,现...【详细内容】
2020-12-10   AWS  点击:(5)  评论:(0)  加入收藏
今天来给大家介绍一下使用AWS的免费工具申请SSL证书,以下各部分将讨论如何使用 AWS Certificate Manager (ACM)控制台来请求公有 ACM 证书。请求公有证书登录 AWS 管理控制台...【详细内容】
2020-08-21   AWS  点击:(6)  评论:(0)  加入收藏
本文由 Xavier Lefèvre 发表在 medium.com,经原作者授权由 InfoQ 中文站翻译并分享。Lambdas 如此吸引人有两个原因:自动缩放功能(扩容、减容)以及按使用量计价的模型。...【详细内容】
2020-08-09   AWS  点击:(2)  评论:(0)  加入收藏
AWS和AZURE之间的区别亚马逊网络服务(AWS)是亚马逊的一个云服务平台,提供不同领域的服务,如计算、存储、交付和其他功能,帮助业务规模和增长。我们可以以服务的形式利用这些域...【详细内容】
2020-08-08   AWS  点击:(3)  评论:(0)  加入收藏
今天,企业信息化市场的大部分“江山”,已经属于云计算。尤其在疫情到来之后,企业加快数字化转型的第一个步骤,就是推动应用上云进程。但是,你知道吗?云计算最原始应用起源于AWS! ...【详细内容】
2020-08-07   AWS  点击:(8)  评论:(0)  加入收藏
导读:随着国际云市场竞争越来越激烈,以中美贸易战为导火索,越来越多的国内AWS客户开始从AWS搬迁至阿里云。本篇文章作为系列文章开篇,从整体分析AWS/阿里云产品差异分析,希望能给...【详细内容】
2020-07-17   AWS  点击:(5)  评论:(0)  加入收藏
要说目前软件架构中热度十二分的话题,当属Serverless。通常我们会将其翻译为“无服务器架构”。尽管成天被称为“无服务器”,但该架构与传统架构不同,显然并不是真的不需要服务...【详细内容】
2020-06-27   AWS  点击:(7)  评论:(0)  加入收藏
在经过11年的培育成长后,阿里云终于迎来商业的最高光时刻。5月22日晚间,阿里巴巴披露2020财年业绩,并重点披露了阿里云财年收入达到400.16亿元,估值也达到770亿美元。阿里云这...【详细内容】
2020-05-23   AWS  点击:(14)  评论:(0)  加入收藏
> Scaling Our AWS Infrastructure 本文由Kareem Ayesh和Yasser El-Sayed撰写。Meddy成立于2016年,自那时以来取得了巨大成功,这要归功于它的规模。 2019年,我们在A轮融资️的基...【详细内容】
2020-04-26   AWS  点击:(12)  评论:(0)  加入收藏
全球云计算市场已经较长时间维持在亚马逊AWS、微软Azure、阿里云三足鼎立的“3A”格局,但最新数据显示,这一格局正在发生瞩目变化。4月23日,国际研究机构Gartner发布2019年云计...【详细内容】
2020-04-24   AWS  点击:(22)  评论:(0)  加入收藏
本文将会介绍一种在所有区域中使用你的公钥的方法。-- Daniel Leite De Abreu(作者)如果你长期使用亚马逊 Web 服务(AWS)中的实例,你可能会遇到下面这个常见的问题,它不是因为技...【详细内容】
2019-12-10   AWS  点击:(37)  评论:(0)  加入收藏
1、下载:http://www.awstats.org/,下载最新版tar.gz即可,可以ftp上传。也可以用wget下载2、解压安装:tar zxvf awstats-x.x.tar.gz -C /opt/ //解压至/opt目录下mv /opt/awstats...【详细内容】
2019-11-07   AWS  点击:(26)  评论:(0)  加入收藏
AWS警告客户,分布式攻击严重阻碍网络连接,殃及众多网站和应用软件。 云巨头AWS遭到攻击后,今天其部分系统实际上断网。由于这次持续的故障,不走运的网民间歇性无法访问依赖AWS...【详细内容】
2019-10-23   AWS  点击:(128)  评论:(0)  加入收藏
键词:标题优化、内容营销、抖音,达人适用行业:童装、男装等所有类目适用卖家规模:淘宝店铺、天猫店铺 最近大火的优衣库抢购事件霸屏了各个平台的头条,虽然是线下的疯狂抢购,而线...【详细内容】
2019-06-26   AWS  点击:(96)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条