哈希摘要是什么

1. 哈希摘要是什么

哈希摘要，也常叫消息摘要（Message Digest）、数字指纹（Fingerprint），指的是：

对任意长度的输入数据，通过某种哈希算法计算出一个固定长度的结果。
这个结果可以近似看作原始数据的“指纹”。

例如：

一段文本
一个文件
一条消息
一次接口请求体

都可以先经过哈希算法，得到一个固定长度的摘要值，例如 MD5、SHA-256 的输出。

1.1 它的核心特征是什么

输入长度可变，输出长度固定：

无论输入是 10B、10KB 还是 10GB，摘要长度都由算法决定。例如 SHA-256 输出固定为 256 bit。
计算快：

摘要算法通常比对称加密、非对称加密都更轻量，适合做完整性校验、去重、快速比较。
雪崩效应（Avalanche Effect）：

原文哪怕只改动 1 bit，摘要结果通常也会大幅变化。
不可逆：

理想的密码学哈希函数应该很难从摘要值反推出原始输入。注意这里是“很难”，不是数学上绝对不可能。

1.2 它和普通 `hash` 有什么区别

工程里“哈希”这个词很容易混用，至少有两类常见语境：

数据结构哈希：
例如 HashMap、Redis dict、分库分表的 hash(key) % N。
目标是让数据分布均匀、查询快。
更关注速度和分布性，不一定强调抗碰撞、抗攻击。
密码学哈希摘要：
例如 MD5、SHA-256、SHA-3。
目标是提供完整性校验、抗篡改基础、签名输入、内容指纹。
更关注抗碰撞、抗原像攻击、雪崩效应。

一句话区分：

HashMap 里的 hash，重点是分桶。
哈希摘要里的 hash，重点是内容指纹与安全属性。

2. 一个好的哈希摘要算法应具备什么性质

如果讨论的是密码学哈希函数，通常关注以下性质：

2.1 原像抗性（Preimage Resistance）

已知摘要值 h，应该很难反推出原文 m，使得：

hash(m) = h

这也是为什么摘要常被误以为是“加密”。其实不是。摘要不是为了“可逆解密”，而是为了“难以反推”。

2.2 第二原像抗性（Second Preimage Resistance）

已知一份原文 m1，应该很难再找到另一份不同的原文 m2，使得：

hash(m1) = hash(m2)

这个性质保证了：你不能轻易构造一个“内容不同但摘要一样”的替代品。

2.3 抗碰撞性（Collision Resistance）

应该很难找到任意两份不同输入 m1、m2，满足：

hash(m1) = hash(m2)

注意：

碰撞不是“会不会存在”，而是“能不能被现实中高效构造出来”。
因为输出长度固定、输入空间无限，所以从数学上讲，哈希碰撞一定存在。
真正要追求的是：在可承受算力内，攻击者难以构造碰撞。

3. 哈希摘要和加密、编码、签名的区别

3.1 和加密的区别

加密：
目标是保密。
一般可逆，拿到密钥后可以解密。
摘要：
目标是生成内容指纹。
一般不可逆，不负责保密。

所以：

想隐藏内容，用加密。
想验证内容是否被改过，用摘要。

3.2 和编码的区别

Base64、URL 编码、Hex 编码都只是编码。
编码是可逆的，不提供安全性，也不提供抗篡改能力。

3.3 和数字签名的区别

数字签名通常不是“直接对大文件做非对称加密”，而是：

先对内容做摘要。
再对摘要做签名。
验签时重新计算摘要并比对。

所以摘要常常是数字签名的输入基础，但摘要本身不等于签名。

4. 哈希摘要的典型应用场景

4.1 文件完整性校验

最常见的场景就是下载文件后的校验：

发布方提供文件的 SHA-256。
用户下载文件后重新计算摘要。
两边一致，说明文件大概率没有损坏或被篡改。

这是摘要最经典、最容易理解的用途。

4.2 快速去重与内容指纹

很多系统不会直接存储“整个内容”来做比对，而是先存一个摘要：

文件去重
图片去重
URL 去重
消息幂等
爬虫内容去重

例如：

存储 content_hash
建唯一索引
相同摘要先判定为“高度可疑重复”

这能显著减少比较大对象时的成本。

4.3 密码存储

用户密码不能明文存库，常见做法是存“密码的派生摘要”而不是明文。

但这里要特别注意：

不能简单直接存 MD5(password) 或 SHA-256(password)。
应该使用专门的密码哈希算法，例如：
bcrypt
scrypt
Argon2

因为密码场景不仅要“难碰撞”，更要抗暴力破解、抗彩虹表、可调成本。

4.4 数字签名与证书体系

TLS 证书、JWT 签名、软件发布签名等场景里，摘要都很常见：

先对消息做摘要
再对摘要做签名

这样比直接对原文做公钥运算高效得多。

4.5 分片、分桶与路由

虽然这不一定要求密码学安全，但很多系统会借助哈希结果来做：

分库分表
缓存分片
一致性哈希
哈希槽路由

这里更偏“分布均匀”和“快速定位”，不一定非要用密码学摘要算法。

5. 快速比对时为什么常用哈希摘要

如果你要比较两个超大文件或两批超大数据，直接逐字节比对很慢。

典型思路是：

先算摘要。
先比较摘要。
摘要不同，直接判定不同。
摘要相同，再决定是否做更严格的二次确认。

它快的原因在于：

摘要值固定长度，比较成本几乎是常数级。
可以把“大对象比较”先降维成“小指纹比较”。
适合做索引、缓存键、预过滤。

6. 快速比对时需要注意什么

这一部分是工程里最容易踩坑的。

6.1 不要把“摘要相同”直接等价为“内容一定相同”

这是最重要的一条。

摘要不同，可以直接判定内容不同。
摘要相同，只能说明“高度可能相同”，不代表数学上 100% 相同。

如果业务要求零误判，正确做法通常是：

先比摘要。
摘要相同后，再比文件大小、元数据。
最后必要时再做一次逐字节比对。

也就是说：

摘要很适合做快速过滤。
但是否能作为最终判等依据，取决于业务容错要求。

6.2 要区分“普通误碰撞风险”和“恶意构造攻击”

很多人只考虑自然碰撞概率，却忽略了攻击者场景。

非对抗场景：
例如日志去重、缓存 key、图片秒传预判。
关注的是自然碰撞概率。
这时 SHA-256 之类通常足够低风险。
对抗场景：
例如文件验签、安全校验、证书、攻击者可控输入。
关注的是有人故意构造碰撞。
这时不能用已经被攻破的 MD5、SHA-1。

一句话：

非对抗场景关注“概率够不够低”。
对抗场景关注“攻击者能不能故意撞出来”。

6.3 要先做规范化（Canonicalization）

很多“看起来一样”的内容，二进制并不一定一样。

例如：

JSON 字段顺序不同
空白字符不同
文本换行符不同（LF / CRLF）
URL 大小写、默认端口、参数顺序不同
图片元数据不同但像素内容相同

如果你要比的是“业务语义是否一致”，而不是“字节是否完全一致”，就应该先做规范化，再做摘要。

否则会出现：

业务上是同一对象
摘要却完全不同

6.4 不要只取前几位摘要就当最终指纹

为了省空间，有些系统喜欢只存：

前 8 位
前 16 位
前 32 位

这在做“粗过滤”时可以接受，但如果把它当最终唯一标识，碰撞风险会迅速上升。

工程上常见做法是：

前缀摘要做索引加速
完整摘要做二次确认
必要时再加原文比对

6.5 大文件比对要关注 I/O，而不仅是 CPU

很多时候瓶颈不在哈希算法，而在：

磁盘读取
网络传输
对象存储拉取

因此大文件场景常见优化是：

流式计算摘要，而不是整文件读入内存
先比较文件大小、修改时间等廉价信息
分块摘要（chunk hash）配合整体摘要

6.6 密码场景不能用“快摘要”

这个点很反直觉，但非常重要。

在文件去重、快速比对里，摘要越快越好；但在密码场景里，太快反而危险，因为攻击者也能很快暴力枚举。

所以：

文件校验、内容指纹：可以追求快。
密码存储：应该故意让计算更慢、更贵。

7. 常见算法是怎么应对哈希冲突的

先给一个最重要的结论：

密码学哈希算法不能“避免哈希冲突”，只能把碰撞变得极难构造。

因为输入无限、输出固定，所以冲突在数学上必然存在。工程上真正能做的是：

提高碰撞成本
降低实际碰撞概率
在系统层面做二次校验和兜底

7.1 从算法设计上：增加输出空间

最直接的方式就是增加摘要位数。

例如：

MD5：128 bit
SHA-1：160 bit
SHA-256：256 bit
SHA-512：512 bit

输出位数越长，随机碰撞概率越低。

注意：

这只能降低自然碰撞概率。
是否抗攻击，还取决于算法结构本身是否已经被密码分析击穿。

7.2 从算法结构上：使用更强的压缩函数与构造

常见密码学哈希不是简单“取模”或“异或”几下，而是基于专门设计的内部结构，例如：

MD5、SHA-1、SHA-2：典型是分组迭代压缩思路。
SHA-3：采用 sponge（海绵）结构。

它们的目标是让输出具备：

强雪崩效应
更好的扩散与混淆
更高的碰撞构造难度

也就是说，常见算法不是“彻底避免碰撞”，而是通过密码学结构设计让碰撞足够难找。

7.3 从工程使用上：升级算法，淘汰弱算法

现实里最常见的“避免冲突风险”方式，不是自己发明新哈希，而是：

不再用 MD5
不再用 SHA-1
优先使用 SHA-256、SHA-512、SHA-3

原因是：

MD5 和 SHA-1 都已经存在现实可行的碰撞攻击。
它们不适合再用于安全敏感的完整性校验或签名体系。

7.4 从系统设计上：摘要只是第一道过滤

如果系统不能接受“极小概率误判”，通常要加额外兜底：

存储完整摘要而不是截断摘要
摘要相同时，再比原文大小、版本、元数据
最终必要时逐字节比对
用唯一约束 + 原文确认防止误去重

这其实是工程上最可靠的“抗冲突”方式。

7.5 密码场景：加盐和慢哈希不是为了解决碰撞

很多人会把“加盐”理解成“避免哈希冲突”，这是不准确的。

加盐（salt）的主要目标：
防止相同密码产生相同摘要
防止彩虹表攻击
提高批量撞库成本
慢哈希（bcrypt / scrypt / Argon2） 的主要目标：
提高暴力破解成本
增加时间和内存消耗

它们主要解决的是密码破解问题，不是一般意义上的“哈希碰撞问题”。

8. 常见算法怎么选

8.1 `MD5`

优点：
快
历史兼容性强
很多旧系统仍能看到
缺点：
已经不安全
存在现实碰撞攻击
适用建议：
可用于低风险、非安全对抗的历史兼容场景
不建议用于签名、证书、关键完整性校验、密码存储

8.2 `SHA-1`

比 MD5 强，但也已不再安全。
不建议再用于安全敏感场景。

8.3 `SHA-256` / `SHA-512`

当前工程里最常用的安全摘要算法之一。
适合：
文件完整性校验
内容指纹
签名输入
安全校验

如果没有特别理由，默认优先考虑 SHA-256 往往是比较稳妥的选择。

8.4 `SHA-3`

结构上与 SHA-2 不同，采用海绵结构。
属于更现代的设计。
工程里没有 SHA-256 那么普及，但在某些安全要求更高或希望算法族多样化的场景会使用。

8.5 `bcrypt` / `scrypt` / `Argon2`

这几类严格来说更适合叫密码哈希 / 密码派生算法，不是拿来做普通文件去重的。

用途：
存密码
抗暴力破解
不适合：
做海量内容快速去重
做高吞吐文件指纹

9. 面试回答

哈希摘要就是把任意长度的数据，通过哈希算法映射成一个固定长度的摘要值，可以把它理解成数据指纹。
它的特点是输入可变、输出固定、计算快、雪崩效应明显，常用于完整性校验、文件去重、内容指纹、数字签名输入和密码存储。
但要注意，摘要相同不代表内容绝对相同，因为哈希碰撞在数学上一定存在，所以在高要求场景下，摘要更适合做快速过滤，摘要一致后还要做二次校验。
常见算法不会真正“消灭冲突”，而是通过更长摘要位数、更强密码学结构和系统层面的二次校验，把碰撞变得极难构造；安全场景应优先用 SHA-256 或更强算法，不再使用 MD5、SHA-1。