第十章：批处理

1. 批处理的定位

批处理（Batch Processing）处理的是有界数据集，核心目标是以可接受时长完成大规模计算。相较在线系统看重延迟，批处理更看重吞吐与可重现性。

cat、awk、sort、uniq 的管道组合体现了批处理本质：数据流经多个算子逐步变换。

cat access.log | awk '{print $1}' | sort | uniq -c | sort -nr

MapReduce 将计算拆为 Map -> Shuffle -> Reduce：

HDFS 通过数据分块与副本容错，Map 任务尽量靠近数据执行，减少跨网络传输。

热点键会让某些 Reducer 成为拖尾任务。常用方案是采样识别热键并拆分处理。

批处理常用于构建搜索索引、维度宽表、聚合结果与离线特征。

不建议在任务中高并发直写在线数据库。更稳妥做法是生成底层文件再批量导入。

以“新版本全量替换旧版本”的方式发布结果，可获得更好的幂等性、回滚与审计能力。

Spark、Flink、Tez 以 DAG 执行代替“每步落盘”，减少中间物化开销并支持更丰富算子优化。

图算法迭代性强，不适合反复落盘。Pregel 风格的“顶点消息传递 + 超步同步”更适合 PageRank 等任务。