生产环境
本文只描述生产环境运行时故障会造成的影响,以及对应的恢复方式。
一、通用恢复顺序
- 先恢复外部组件。
- 再恢复 OpenIMServer。
- 最后恢复 ChatServer。
二、外部组件运行时故障
| 组件故障 | 运行时影响 | 恢复方式 |
|---|---|---|
| MongoDB 不可用 | OpenIMServer 10002 可能仍可返回,但 ChatServer 与 APP 管理员接口常失败 | 先恢复 MongoDB;恢复后立即复测 10002/10008/10009,若仍异常,再重启 OpenIMServer / ChatServer |
| Redis 不可用 | OpenIMServer 鉴权链路异常;源码部署常见 auth-rpc-service down,Docker 一体化部署常见 Redis 连接或解析错误 | 先恢复 Redis;观察 30-60s,若 OpenIMServer 鉴权仍异常,再重启 OpenIMServer |
| Kafka 不可用 | 基础探针可能仍正常,但消息转发、推送链路会异常 | 先恢复 Kafka;恢复后补做消息发送、消费、推送闭环验证 |
| Etcd 不可用 | 已运行实例通常短时可继续服务,但服务重启阶段可能失败 | 先恢复 Etcd;如果服务注册未恢复,再重启 OpenIMServer / ChatServer |
| MinIO 不可用 | 文件上传下载失败;源码部署下基础探针通常仍可用,Docker 一体化部署下可能连带 10002/10008/10009 异常 | 先恢复 MinIO,并检查 externalAddress;若 Docker 一体化部署在 30-60s 后基础探针仍未恢复,再重启 OpenIMServer / ChatServer 服务栈 |