-
开篇引言 2
-
计算(Compute) 9
-
Lecture2.1
-
Lecture2.2
-
Lecture2.310 min
-
Lecture2.417 min
-
Lecture2.510 min
-
Lecture2.606 min
-
Lecture2.709 min
-
Lecture2.811 min
-
小测2.110个问题
-
-
存储(Storage) 7
-
Lecture3.117 min
-
Lecture3.204 min
-
Lecture3.310 min
-
Lecture3.408 min
-
Lecture3.508 min
-
Lecture3.608 min
-
小测3.110个问题
-
-
数据库(Database) 8
-
Lecture4.105 min
-
Lecture4.213 min
-
Lecture4.314 min
-
Lecture4.408 min
-
Lecture4.506 min
-
Lecture4.606 min
-
Lecture4.712 min
-
小测4.110个问题
-
-
网络(Networking) 10
-
Lecture5.112 min
-
Lecture5.210 min
-
Lecture5.315 min
-
Lecture5.412 min
-
Lecture5.512 min
-
Lecture5.611 min
-
Lecture5.709 min
-
Lecture5.808 min
-
Lecture5.909 min
-
小测5.110个问题
-
-
安全(Security) 10
-
Lecture6.110 min
-
Lecture6.210 min
-
Lecture6.309 min
-
Lecture6.408 min
-
Lecture6.509 min
-
Lecture6.608 min
-
Lecture6.709 min
-
Lecture6.808 min
-
Lecture6.911 min
-
小测6.110个问题
-
-
迁移(Migration) 8
-
Lecture7.110 min
-
Lecture7.209 min
-
Lecture7.309 min
-
Lecture7.409 min
-
Lecture7.507 min
-
Lecture7.606 min
-
Lecture7.708 min
-
小测7.110个问题
-
-
高可用性(High Availability) 7
-
Lecture8.112 min
-
Lecture8.207 min
-
Lecture8.306 min
-
Lecture8.406 min
-
Lecture8.504 min
-
Lecture8.613 min
-
小测8.110个问题
-
-
部署(Deployment) 7
-
Lecture9.107 min
-
Lecture9.209 min
-
Lecture9.310 min
-
Lecture9.408 min
-
Lecture9.510 min
-
Lecture9.611 min
-
小测9.110个问题
-
-
无服务架构(Serverless) 9
-
Lecture10.112 min
-
Lecture10.208 min
-
Lecture10.310 min
-
Lecture10.406 min
-
Lecture10.506 min
-
Lecture10.606 min
-
Lecture10.706 min
-
Lecture10.812 min
-
小测10.110个问题
-
-
大数据和数据分析(Big Data) 7
-
Lecture11.110 min
-
Lecture11.208 min
-
Lecture11.307 min
-
Lecture11.410 min
-
Lecture11.510 min
-
Lecture11.613 min
-
小测11.110个问题
-
-
成本管理(Cost Management) 6
-
Lecture12.108 min
-
Lecture12.205 min
-
Lecture12.309 min
-
Lecture12.405 min
-
Lecture12.507 min
-
小测12.110个问题
-
-
AWS 完善架构框架(Well-Architected Framework) 6
-
总结 2
5个评论
第二点, 请问是怎么自动恢复的? 用哪个服务?
自动恢复有很多不同的层级。
如果在实例级别, 可以有Autoscaling group,会自动监测实例状态,如果有异常,会自动起新的实例。
如果是配置有问题, OpsWorks 有各种管理工具可以自动处理, Systems Manager 可以有工具来实现自动化。
从监控角度,可以用CloudWatch 来跟踪各种参数,设定Alarm来触发各种操作,自动重启实例等。
从stack角度看,CloudFormation 可以检测配置的漂移,可使用stack更新恢复到初始设定状态。
从合规角度看,可以有AWS config 自动监测,并触发 config rule 自动执行恢复操作。
当然,通过EventBridge的事件触发,用lambda 自己来编写脚本, 实现自动恢复具有更多的灵活性。
可靠性是一个很大的系统工程, AWS提供了很多工具来实现,要需要结合实际的工作负载,才能做出最优的选择。
第一点“测试恢复流程”说的是什么意思?
A、通过CloudFormation建设N个环境, 用来给测试, 产出恢复预案的多个CloudFormation脚本, PlanA、PlanB等.
B、通过CloudFormation建设N个环境, 用证明CloudFormation的脚本是正常的, 当灾难时可以快速在另一个Region恢复
这一点主要是从流程角度来说。一般企业都会有灾难恢复DR的计划, 但要测试起来很困难。比如说要演练主机房故障,需要把灾备点把机房拉起来,我准备了很多恢复操作流程,但做起来很不容易,灾备点的设备可能很久没用,或者配置和主机房不一样,人员也不熟悉,就都只能是纸上谈兵。
在云环境下,就可以真实的测试的恢复流程,正如你说的B选项,可以在其他AWS Region用同样的CloudFormation模板做一套环境,实现真实场景的测试和演练。
我再贴一段官方的说明,可以仔细品品。
Test recovery procedures: In an on-premises environment, testing is often conducted to prove that the workload works in a particular scenario. Testing is not typically used to validate recovery strategies. In the cloud, you can test how your workload fails, and you can validate your recovery procedures. You can use automation to simulate different failures or to recreate scenarios that led to failures before. This approach exposes failure pathways that you can test and fix before a real failure scenario occurs, thus reducing risk.