ECS计算节点变更风险治理的探索与实践

分论坛:工具/平台创新

专题:质量工程平台(混沌工程、压测、A/B测试等)

崔浩
阿里云高级开发工程师,阿里云弹性计算异常调度变更风险平台负责人,从事变更风险诊断和治理、变更风险左移规避、变更效率提升等相关工作。

内容简介:

云计算的初衷是“为了永不停机的计算服务”,伴随着各类企业核心系统上云,对云的稳定性也提出了越来越高的要求。云计算的业务演进离不开变更,然而变更往往伴随着风险,Google SRE认为70%的故障都是由变更导致的。面对超大规模的计算节点,如何同时保证变更安全、持续、高效进行是值得探索的问题。

本报告以阿里云ECS计算节点变更平台体系为基础,探讨变更风险左移、变更风险拦截、变更质量评价等方面的实践方法与案例。通过变更编排调度算法、金丝雀测试阶段等方式左移软件缺陷的发现阶段,通过变更与异常的关联分析、溯源分析发现变更风险并及时拦截,计算变更受损指标、基于KeyMetric变化趋势、downtime分析等手段分析变更质量,守护ECS计算节点的安全变更。

演讲提纲:

1、变更风险与挑战
2、变更风险左移:金丝雀发布测试的落地实践 3、变更风险拦截:专家规则与显著性差异构建的拦截系统 4、变更质量分析:KeyMetric受损分析与变更downtime治理 5、总结与展望

听众收益:

1、阿里云弹性计算ECS计算节点变更风险治理体系的整体架构方案、设计思路
2、利用灰度编排算法、金丝雀发布测试方法左移风险发现阶段的实践方法 3、利用专家规则与显著性差异算法构建变更风险拦截平台的实践方法
4、利用KeyMetric分析、downtime治理等分析、治理变更质量的实践方法
联系我们
购票热线:4006-998-758
媒体合作:柚子
联系电话:15601343666 邮箱:fengsh@keylinking.com
赞助合作:一竹
联系电话:18515447737 邮箱:sunyz@keylinking.com
票务合作:Anny 联系电话:17778017751 邮箱:zhangp@keylinking.com
关注主办方
联系我们
电话咨询 4006-998-758
QQ咨询 609231282