真不是我甩锅,细数我遇到过的阿里云的故障

Jimmy Lee

技术分享|Feb 10, 2021|Last edited: 2022-7-22|
type
Post
status
Published
date
Feb 10, 2021
slug
aliyun-down
summary
使用阿里云的过程,也是一部血泪史
tags
REVIEW
OPS
category
技术分享
icon
Update time
Jul 22, 2022 12:07 AM
Internal status
password
1. 网站时不时卡顿几分钟,自动恢复,搜索服务响应缓慢 1. 影响范围:web,app都出现502 2. 原因: 阿里云低版本ES存在稳定性问题 3. 解决方案:升级ES内核,阿里云并不会自动升级 2. 香港的serverless 容器 访问国内的网络有connect time out的问题,每天的晚上8点开始会突然多起来 1. 影响范围:香港报价服务和国内交易服务的通讯 2. 原因:运营商反馈:是运营商海缆故障,请您知悉。 3. 解决方案:等待恢复 3. 服务内调用服务出现超时 1. 影响范围:一些服务异常,包括库存,短信等 2. 原因:阿里云k8s集群自己改变了策略,导致我们之前的正常的流量策略不可用 3. 解决方案:设置成新的策略 4. 证书出现问题,无法访问    1. 影响范围:人工发货功能不可用,用户无法使用我们的代理地址 2. 原因:阿里云升级了k8s的配置,没有通知我们 3. 解决方案:按新的方式配置证书 5. 阿里云的RDS数据库读写分离地址突然失效 1. 影响范围:半夜的时候造成网站完全无法访问 2. 原因:阿里云故障 3. 解决方案:我们当时立马申请了新的地址,才恢复访问 6. 香港的serverless集群突然全部实例异常,流量无法进入 1. 影响范围:部署在香港的服务全部无法问题 2. 原因:阿里云故障 3. 解决方案:等待阿里云修复之后才恢复正常,已经要求阿里云赔偿 7. 香港的serverless集群绑定的弹性公网IP自动消失 1. 影响范围:报价服务异常 2. 原因:阿里云故障 3. 解决方案:等阿里云修复
  1. 🗒️
    RocketMQ消费者全部离线故障
    1. 影响范围: 公司全部报价无法处理
    2. 原因: 阿里云旧的SDK存在断线重连重试BUG
    3. 解决方案: 升级新的SDK

开始订阅我的关于终生学习, 生产力以及知识管理的文章. 订阅后, 您将收到我的精选文章.

©2014-2024 Jimmy Lee. All rights reserved. 公众号: 技术管理方法论
Powered By My Lovely Children