第一章：可靠性，可扩展性，可维护性

1. 数据系统与评估维度

现代应用通常由数据库、缓存、搜索、流处理、批处理、消息队列等组件组合而成。工程上讨论“数据系统”，本质是在讨论这组组件的协作方式与取舍。

设计一个数据系统时，核心评估维度不是“是否用了某个中间件”，而是是否同时满足 可靠性（Reliability）、可扩展性（Scalability）、可维护性（Maintainability）。

可靠性不等于“不崩溃”，而是系统在正常与异常条件下都能持续满足预期：

工程目标不是“消灭故障”，而是通过容错把故障吸收在系统内部，避免演变为对外失效。

单机视角下硬件故障概率不高，但在大规模集群里是常态。常见策略是副本冗余、自动故障转移、在线修复，以及用软件容错替代“昂贵硬件兜底”。

软件错误常表现为跨节点相关的系统性问题，例如错误缓存失效策略、重试风暴、雪崩式级联失败。治理重点是隔离、限流、熔断、可观测性与演练。

运维配置失误、发布误操作、错误脚本是最常见的中断来源。推荐通过沙箱环境、自动化发布、灰度与回滚、审计追踪降低风险。

可扩展性没有统一答案，必须先定义负载参数：

社交时间线常见两种模型：

实务中通常采用混合方案：普通用户用 Push，大 V 用 Pull，以控制极端扇出成本。

平均值会掩盖慢请求，容量规划应以分位数为主：p50、p95、p99、p99.9。

当一次请求依赖多个下游时，尾延迟会叠加放大。依赖链越长，终端请求落入慢尾部的概率越高。

系统应便于日常运行与故障处置：可观测、可自动化、可灰度、可回滚、可容量评估。目标是让运维动作从“人肉排障”转向“流程化处理”。

要主动压缩“额外复杂度（Accidental Complexity）”。有效手段是高质量抽象：隐藏实现细节，暴露稳定接口，降低心智负担与认知耦合。

需求变化是常态。系统应通过模块边界、兼容协议、自动化测试与持续重构，保持低成本演进能力。

三者共同决定一个数据系统是否能长期稳定支撑业务增长。