阿里的异地多活经验学习笔记
流量是可以随时切换的
如果恢复时间能控制得非常好,可能整个故障控制力就非常强。
用户通过代理来访问数据中心,代理如果检测到数据中心出现问题,它会自动把流量导入到另一个数据中心。
衡量系统可用性的指标
- 服务平均无故障时间MTBF
- 服务平均恢复时间MTTR
- 可用性=(MTBF/(MTBF+MTTR))*100%
单实例
无状态
有状态
自动回复
集群层面
自我保护:降级、限流
快速变更:伸缩、变更
制作一个小页面,表示当前这台服务器上的服务是否有效
机房和地域层面
切库、引流
跨地域容灾切换
全局服务
dns故障
骨干网故障
灾难恢复标准
国际标准 SHARE78
国家标准 《信息系统灾难恢复规范》GB/T 20988 - 2007