您当前的位置:首页 > 互联网百科 > 云计算

云平台存储应急演练常见问题分析

时间:2023-11-21 13:06:46  来源:IT168  作者:

相比于传统架构成熟的应急处置体系,业界关于云平台存储开展应急演练和管理方面则稍显欠缺。本文将梳理云平台存储应急演练与传统IT架构的区别,列举云平台存储常见的故障场景,并分析如何针对各类场景更有针对性的制定应急演练计划。

云平台存储应急演练常见问题分析

俗话说,“光说不练假把式”。IT系统的应急演练是实现企业验证业务连续性能力、组织、预案、团队能否满足既定目标的方式。随着云计算技术的推广,云平台存储逐渐成为一种有效解决企业海量数据存储和管理问题的方式。但相比于传统架构成熟的应急处置体系,业界关于云平台存储开展应急演练和管理方面则稍显欠缺。以下内容将进一步梳理云平台存储应急演练与传统IT架构的区别,列举云平台存储常见的故障场景,并分析如何针对各类场景更有针对性的制定应急演练计划。

一、居安思危,云平台存储的应急演练缺失之殇

云平台存储能够对企业日常生产过程中产生的不同类型非结构化数据进行统一存储和管理。企业可选择相应类型的云平台存储(包括文件存储、对象存储、块存储等),并利用分布式存储架构所提供的软件即存储能力,构建具有高可用特性的企业云服务的基础存储服务层,为云上各类的微服务应用提供云存储和云共享服务。可以说云平台存储的底层架构设计比传统存储更加关注数据和服务的持久性和高可用性,不仅为上层应用提供了更为灵活的软硬件一体化部署模式,同时也兼具更加健壮的高可用模式。

但很多企业没有针对云平台存储形成一整套成熟的应急演练机制,大多数应急方案仍然是针对传统存储架构所设计的。云平台存储在开展应急演练和容灾管理方面,应更加关注弹性云计算资源、云硬盘设备、分布式存储设备等服务。

但是在开展应急演练方面和管理方面,则需要基于现有云上的业务策略,按需配置云存储的保护实例,并通过存储同步复制技术、磁盘映射技术、数据缓存冗余等技术构建云存储的高可用性,为业务提供数据的可靠性以及业务连续性。在演练过程中,通常是将云存储弹性云服务器的数据、配置信息复制到容灾站点,并支持应用所在的服务器停机期间从另外的位置启动并正常运行,从而提升业务连续性。相比于传统存储,基于云平台存储的容灾方式,能够更好的降低容灾建设成本。

二、有备无患,云平台存储应急演练中的常见问题分析

相比于传统存储较为成熟的应急预案、流程,针对云平台存储的应急演练进行测试和评估,则可发现大多存在如下问题:

1. 缺乏针对云平台存储的演练标准体系

由于基于云平台存储的业务平台,采用分布式计算机存储系统,天然形成了数据冗余存储、具有自动恢复机制,提高了存储数据抵抗外界诸如硬件故障、单台存储设备故障等不可抗风险。因此,在构建基于云架构的演练标准体系方面,缺乏了应有的关注。

笔者认为构建基于云平台存储的演练体系应至少应包括:

1)明确云平台存储突发事件应急各环节中的角色和责任,提高云平台存储各项响应和操作能力; 对存储的运维也从硬件层面转变为对应用和微服务的支撑。

2)构建云平台存储应急演练手段技术体系,利用真实可模拟的微服务存储故障等突发事件应急环境,增强参演人员的心适应能力和调整能力。

3) 明确云平台存储在应急演练各环节关键的功能要素,包括SSD云盘的IOPS、吞吐量和访问时延。并据此从定性和量化两个方面构建科学的演练效果评估指标体系;

2. 缺少以云原生视角去拓宽演练领域的思路

分布式云存储日益复杂,但是业内普遍缺乏以云原生视角去扩展演练领域的思路,仅仅是按诸多传统架构中不存在的不确定因素。比如,机器高负载、网络异常、磁盘 IO、节点调度等故障,以及云平台自身的资源、应用服务、容器以及基础设施各环节导致的问题。

笔者认为以云原生视角拓宽演练领域至少应该包括如下颗粒度。其中,以下几项尤为重要:

1)评估IaaS层、PaaS层是否健壮:模拟云存储不可用,验证系统的容错能力、测试调度任务是否自动迁移到可用节点。

2)衡量容器及微服务的容错能力:查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的QPS或RT是否受影响。

3)验证容器编排配置是否合理:模拟杀服务Pod、杀节点、增大Pod资源负载,观察系统服务可用性,验证副本配置、资源限制配置以及Pod下部署的容器是否合理。

4)验证监控告警的时效性:对系统注入故障,验证监控指标是否准确,监控维度是否完善,告警阈值是否合理,告警是否快速,告警接收人是否正确,通知渠道是否可用等,提升监控告警的准确和时效性。

三、战时心不慌,梳理云存储应急预案场景

针对不同类型的云存储类型及故障场景建立不同的应急预案

场景一:块存储集群中,单台设备故障无法正常使用

使用技术:备份一体机 DP 进行恢复

RPO =1Day (可恢复 1 天前的备份副本);RTO = 2-3Hour(200G 数据需恢复需10Min)。

业务恢复步骤:选择存储卷及备份副本,完成云存储及业务恢复。

场景二:文件存储中的部分非结构化数据被误删除或丢失

使用技术:备份一体机 DP 进行恢复

RPO =1Day (可恢复 1 天前的文件);RTO = 30Min-2Hour(200G 数据需恢复需10Min)。

业务恢复步骤:选择虚拟机及备份副本,确认丢失文件的路径,选择恢复的目标,完成丢失文件的恢复。

场景三:对象存储损坏或丢失

使用技术:备份一体机 DP 进行恢复

RPO =1Day (可恢复 1 天前的文件);RTO = 30Min-2Hour(200G 数据需恢复需10Min)。

业务恢复步骤:选择数据库副本文件进行数据恢复,恢复后确保数据完整性及数据库可用性。

场景四:核心业务系统发生宕机无法快速恢复

使用技术:通过 RP 技术进行恢复

RPO = 30sec ;RTO = 5min。

业务恢复步骤:选择相应的时间点,进行容灾切换,将备机直接开启,并确认业务是否可以使用。

云平台存储的应急切换演练能够显著减少和预防企业在云架构模式下发生安全事件。在当下,数字化转型时代逐步会成为构建业务连续性方面需要考虑的重要环节。然而与IT传统架构在应急演练方面的所具备的成熟体系和经验相比,在云架构模式下,对云平台存储的应急演练起步较晚且存在诸多不足,亟需从标准体系、演练领域、演练流程、演练形式、人才等角度进行完善、创新。

【作者】珺祎 某国有银行系统架构师



Tags:云平台   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
如何使用Python、Apache Kafka和云平台构建健壮的实时数据管道
译者 | 李睿审校 | 重楼在当今竞争激烈的市场环境中,为了生存和发展,企业必须能够实时收集、处理和响应数据。无论是检测欺诈、个性化用户体验还是监控系统,现在都需要接近即时...【详细内容】
2024-01-26  Search: 云平台  点击:(46)  评论:(0)  加入收藏
信创云平台该如何选择国产CPU?
信创云的火热带动了虚拟化产品如雨后春笋般出现,面对“纷繁杂乱”的虚拟化市场,如何保证信创云稳定、顺畅运行,是所有云计算开发者关注的重点。而构建信创云时,面临的痛难点在于...【详细内容】
2023-11-24  Search: 云平台  点击:(240)  评论:(0)  加入收藏
云平台存储应急演练常见问题分析
相比于传统架构成熟的应急处置体系,业界关于云平台存储开展应急演练和管理方面则稍显欠缺。本文将梳理云平台存储应急演练与传统IT架构的区别,列举云平台存储常见的故障场景,并...【详细内容】
2023-11-21  Search: 云平台  点击:(69)  评论:(0)  加入收藏
2023年物联网十大云平台
本文对2023年物联网十大云平台进行了深入的概述。从Amazon Web Services IoT Core和Microsoft Azure IoT Hub到Google Cloud IoT Platform和IBM Watson IoT Cloud Platform,...【详细内容】
2023-07-28  Search: 云平台  点击:(82)  评论:(0)  加入收藏
176比特!“祖冲之号”量子计算云平台今日上线
联网就能用上全球领先的量子计算机?这一梦想正走进现实。2023年5月31日,在安徽合肥,接入“祖冲之号”同款176比特超导量子计算机的新一代量子计算云平台正式发布。这不仅刷新了...【详细内容】
2023-06-01  Search: 云平台  点击:(73)  评论:(0)  加入收藏
宝马宣布成为首家使用亚马逊 AWS 云平台的汽车制造商
IT之家 10 月 13 日消息,宝马今日宣布,将成为第一家使用亚马逊网络服务(AWS)云软件管理其联网车辆数据的汽车制造商。宝马表示,截至今日大约有 2000 万辆联网汽车在路上行驶。AWS...【详细内容】
2022-10-13  Search: 云平台  点击:(178)  评论:(0)  加入收藏
华为IOT云平台SAFE⼤规模敏捷转型实践
IoT云平台简介 规模化敏捷框架SAFe®Scaled Agile FrameworkSAFe® is an online freely revealed knowledge baseof proven, integrated patterns for implementin...【详细内容】
2022-08-07  Search: 云平台  点击:(279)  评论:(0)  加入收藏
Beyond重映演唱会1.4亿人背后:云平台视听修复技术正在升级
“永远爱你,家驹”。7月3日晚上,当最后一首《海阔天空》歌声响起时,抖音评论区迅速刷屏,速度快到肉眼看不清,这场31年前的演唱会,在2022年重新浮现,唤起了无数人的记忆。当晚累计观...【详细内容】
2022-07-05  Search: 云平台  点击:(293)  评论:(0)  加入收藏
教育部:国家中小学网络云平台浏览次数超60亿,所有资源免费使用
2月15日,教育部召开2022“教育新春”系列首场新闻发布会,介绍了2022年基础教育重点工作任务和中小学幼儿园开学有关工作要求。教育部基础教育司司长吕玉刚介绍,2022年重点工作...【详细内容】
2022-02-16  Search: 云平台  点击:(312)  评论:(0)  加入收藏
K8S云平台部署过程说明
近期由于工作原因,在项目支持的过程中,进行了一次K8S的基础环境部署,云平台一直是公司的重要底座,而我由于一系列原因,一直没有亲自尝试,通过本次的机会,让我重新做了一遍,也找到了...【详细内容】
2021-09-09  Search: 云平台  点击:(359)  评论:(0)  加入收藏
▌简易百科推荐
生成式AI:云计算的关键之战
“美国有一家铁路公司,过去两年我们一直在交谈。终于,他们这次打电话给我们,希望迅速推进上云迁移。”近日,亚马逊云科技全球客户技术支持与服务副总裁Uwem Ukpong向记者谈及企...【详细内容】
2024-04-08    21世纪经济报道  Tags:云计算   点击:(6)  评论:(0)  加入收藏
云计算:数据存储与处理的革命性技术
当我们谈论“云计算”时,我们实际上在讨论的是一种基于互联网的新型计算模式。云计算允许用户通过网络访问并使用存储在数据中心(也称为“云”)的共享计算资源。这些资源可以包...【详细内容】
2024-03-04  徐文轩    Tags:云计算   点击:(18)  评论:(0)  加入收藏
云服务2023:阿里云急转弯,腾讯云被集成,百度云加速赶
文|奇偶派回望2023年伊始,伴随着特殊时期的结束和国家数字化转型相关政策的落地,叠加以ChatGPT为代表AI新增量的出现,市场对中国云服务行业的表现普遍给予了较高的期待值,希望其...【详细内容】
2024-01-09    奇偶派  Tags:云服务   点击:(40)  评论:(0)  加入收藏
云计算这一年:冰与火之歌奏响
©⾃象限原创作者丨程心在电影《奥本海默》中,当奥本海默第一次见证了原子弹的爆炸成功,巨大而刺眼的白光穿越了200英里的距离和层层防护,那一刻世界仿佛被抽离,人们见证了...【详细内容】
2023-12-26    自象限  Tags:云计算   点击:(40)  评论:(0)  加入收藏
为什么 Traefik 是云原生首选网关?
根据 Traefik Labs 团队对于 Traefik 在云原生生态中的定位:云原生反向代理和负载均衡器及网关解决方案。一、从生态拥抱视角看:Traefik 的发展前景从云原生生态视角来看,Traef...【详细内容】
2023-11-29  架构驿站  微信公众号  Tags:网关   点击:(66)  评论:(0)  加入收藏
2024年的云趋势:云计算的前景如何?
适应复杂的生态系统、提供实时功能、优先考虑安全性和确保可持续性的需求正在引领云计算之船。多样化的工作负载允许探索通用的公共云基础设施范例之外的选项。由于需要降低...【详细内容】
2023-11-23    千家网  Tags:云计算   点击:(69)  评论:(0)  加入收藏
基于云的应用设计和部署:综合指南
什么是基于云的应用?基于云的应用是设计在云计算环境中运行的软件应用程序。在这里,应用及其相关数据不在本地计算机上存储和执行,而是在云中托管和操作。基于云的应用运行在...【详细内容】
2023-11-23  千家网  微信公众号  Tags:   点击:(65)  评论:(0)  加入收藏
云平台存储应急演练常见问题分析
相比于传统架构成熟的应急处置体系,业界关于云平台存储开展应急演练和管理方面则稍显欠缺。本文将梳理云平台存储应急演练与传统IT架构的区别,列举云平台存储常见的故障场景,并...【详细内容】
2023-11-21    IT168  Tags:云平台   点击:(69)  评论:(0)  加入收藏
阿里云 11.12 故障原因曝光
针对阿里云 11.12 的重大服务故障, 该公司发给客户的一份「官方故障报告」昨天在网上被广泛流传。事件回顾:阿里云严重故障,全线产品受影响(已恢复)影响范围1、OSS、OTS、SLS、MN...【详细内容】
2023-11-16    OSC开源社区  Tags:阿里云   点击:(112)  评论:(0)  加入收藏
云计算的五个网络要求
网络和云团队应该在其云策略中考虑带宽和延迟优化、安全性、网络冗余、服务质量和网络自动化等因素。云计算和SaaS架构的出现颠覆了整个IT行业,并扩展到了网络领域。能够从世...【详细内容】
2023-11-14    千家网  Tags:云计算   点击:(69)  评论:(0)  加入收藏
站内最新
站内热门
站内头条