线程上下文切换介绍

在现代操作系统中，线程是CPU调度的最小单元。为了实现并发执行，CPU需要在多个线程之间快速切换，这个过程就是线程上下文切换（Thread Context Switch）。它既是实现多任务的基石，也是并发程序中一个重要的性能开销来源。

线程上下文

线程上下文是操作系统为了能够随时暂停和恢复线程执行而需要保存的一组关键数据。它完整地记录了线程在某个时间点的“快照”，主要包含：

CPU寄存器状态：
- 通用寄存器：如 EAX, EBX 等，用于存储计算过程中的临时数据。
- 程序计数器（PC/IP）：指向线程下一条要执行的指令的地址，是执行流的核心。
- 栈指针（SP）：指向线程当前栈帧的顶部，管理函数调用和局部变量。
- 特殊寄存器：如浮点（FPU）、多媒体扩展（MMX, SSE, AVX）等寄存器，它们数据量巨大，是上下文切换开销的重要组成部分。
线程状态和属性：存储在内核数据结构（Linux中为 struct task_struct）中的信息，如线程ID、状态（运行、就绪、阻塞等）、优先级、内核栈等。

上下文切换的触发时机

上下文切换的发生并非随机，而是由特定的事件触发，可分为两大类：

自愿切换（Voluntary Switch）：线程主动放弃CPU。
- I/O阻塞：线程请求读写文件或网络数据时，由于等待设备响应，会进入阻塞状态。
- 同步阻塞：线程尝试获取一个已被其他线程持有的锁（Mutex、Semaphore）时，会进入等待队列。
- 主动休眠：线程调用 sleep() 或 yield() 等函数，自愿让出CPU。
非自愿切换/抢占（Involuntary Switch / Preemption）：操作系统强制剥夺线程的CPU使用权。
- 时间片用尽：在采用轮询（Round-Robin）等公平调度策略的系统中，线程运行完分配的时间片后，会被调度器强制切换。
- 更高优先级线程就绪：当一个更高优先级的线程从阻塞状态恢复（例如，它等待的I/O操作完成），调度器会立即抢占当前正在运行的低优先级线程。
- 硬件中断：外部设备（如键盘、网络卡）完成操作后发出中断信号。CPU响应中断，在中断处理程序结束后，调度器可能会决定运行一个比之前被中断的线程更重要的任务。

调度策略与算法

当需要进行上下文切换时，操作系统中的调度器（Scheduler）会根据预设的调度策略（Scheduling Policy）来决定下一个应该运行哪个线程。不同的策略目标不同，适用于不同的应用场景。

(1) 交互式系统的主要调度策略

这类系统（如桌面操作系统、服务器）注重响应时间和公平性。

轮询调度 (Round-Robin Scheduling)
- 核心思想：维护一个就绪线程队列，调度器按“先来先服务”的原则选择队首线程，并给予一个固定的时间片（Quantum）。
- 切换时机：如果线程在时间片内阻塞，立即切换；如果时间片用尽线程仍在运行，则强制抢占，并将其移到队尾。
- 关键权衡：时间片的长度至关重要。
  - 太短：切换过于频繁，大部分CPU时间都消耗在上下文切换的直接开销上，导致系统吞吐量下降。
  - 太长：短小的交互式任务需要等待很久才能得到响应，系统响应性变差。通常设置为20-50毫秒是比较理想的折中。
优先级调度 (Priority Scheduling)
- 核心思想：为每个线程分配一个优先级，调度器总是选择就绪队列中优先级最高的线程运行。
- 优先级来源：可以是静态的（创建后不变）或动态的（操作系统根据线程行为调整）。
- 动态优先级调整（老化 Aging）：为防止高优先级线程永远霸占CPU导致低优先级线程“饥饿”，系统可以动态调整优先级。例如，可以周期性地降低当前运行线程的优先级，或提升长时间等待的线程的优先级。对于I/O密集型线程，一种常见策略是根据其CPU使用率动态提升其优先级（如设为 1/f，f为上一时间片CPU占用比例），让它能快速发起下一次I/O，从而提高设备利用率。
多级反馈队列 (Multi-level Feedback Queues)
- 核心思想：是轮询和优先级调度的结合与进化。系统设置多个就绪队列，每个队列有不同的优先级和时间片长度。
- 运作方式：新线程首先进入最高优先级队列（时间片最短）。如果在时间片内未完成，则降级到下一个队列（优先级更低，时间片更长）。这种机制能够很好地满足不同类型任务的需求：交互式短任务能在高优先级队列中快速完成；而CPU密集型长任务则会逐渐“下沉”到低优先级队列，使用更长的时间片，减少切换次数。
公平分享调度 (Fair-Share Scheduling)
- 解决问题：传统调度器只看线程，不看线程的“主人”。如果用户A启动10个线程，用户B启动1个，用户A将获得10倍于用户B的CPU时间。
- 核心思想：调度器以用户或用户组为单位来分配CPU时间。例如，确保用户A和用户B各获得50%的CPU时间，无论他们各自运行了多少线程。现代Linux的CFS（Completely Fair Scheduler）就是这一思想的精致实现，它通过虚拟运行时间（vruntime）来保证每个任务获得与其权重成正比的CPU时间。

(2) 线程模型的调度差异

用户级线程：调度完全在用户空间由线程库完成，内核毫不知情。切换速度极快（仅需几条指令保存/恢复寄存器），但一个线程的阻塞（如I/O调用）会导致整个进程被内核挂起。
内核级线程：由内核直接管理和调度，是现代操作系统的标准模型。切换开销较大（需要陷入内核），但一个线程的阻塞不影响同一进程中的其他线程，并且可以真正利用多核CPU实现并行。

Linux中上下文切换的实现机制

在Linux中，线程和进程都被抽象为任务（Task），由struct task_struct描述。上下文切换的核心由context_switch()函数驱动，主要包含两大部分：

切换内存地址空间 (switch_mm_irqs_off)
- 对于不同进程的线程切换，必须切换CPU的页表基地址寄存器（x86中的CR3），让MMU指向新进程的地址空间。这是一个高开销操作，因为它会使TLB（地址转换旁路缓存）中的大部分缓存失效。
- 对于同一进程内的线程切换，由于它们共享地址空间，这一步被跳过，从而大大降低了切换成本。
切换处理器状态 (switch_to)
- 这是切换的核心，通常由一小段与体系结构高度相关的汇编代码实现。
- 保存旧任务：将当前任务（prev）的内核栈指针（SP）保存到其task_struct->thread.sp字段。然后，将被调用者保存的寄存器（callee-saved registers, 如%ebp, %ebx等）压入当前（prev的）内核栈。
- 加载新任务：从下一个任务（next）的task_struct->thread.sp中加载其内核栈指针到CPU的SP寄存器。
- 恢复新任务：从新的内核栈中弹出（恢复）之前保存的被调用者寄存器。
- 切换执行流（隐式）：switch_to的巧妙之处在于它不直接保存和恢复指令指针（IP）。它通过jmp指令跳转到__switch_to函数。当该函数最终返回时，ret指令会从新的内核栈上弹出返回地址，这个地址正是新任务（next）上次被中断的地方。这样，执行流就自然地转移到了新任务上。

上下文切换的开销

(1) 直接开销

寄存器状态存取：读写内存以保存和恢复几十个CPU寄存器。特别是体积庞大的FPU/AVX寄存器，读写延迟显著。
内核代码执行：运行调度器算法、更新任务状态、维护运行队列等管理操作。

(2) 间接开销

CPU高速缓存失效 (Cache Miss)：当切换到新线程后，其工作数据（代码和变量）很可能不在CPU的L1/L2/L3缓存中。CPU必须从速度慢得多的主内存中重新加载数据，这个过程会导致大量的缓存缺失（Cache Miss），使CPU处于等待状态，严重影响执行效率。
TLB失效 (TLB Miss)：TLB是用于加速虚拟地址到物理地址转换的缓存。跨进程切换会导致TLB被刷新或大量失效，使得新线程的每次内存访问都可能需要慢速地查询多级页表，造成显著延迟。PCID（进程上下文标识符）技术可以缓解但无法完全消除此问题。
分支预测器失效：现代CPU通过分支预测来避免流水线停顿。切换到新线程后，其代码执行路径与旧线程不同，会导致分支预测器缓存的模式失效，预测准确率骤降，进而降低CPU的指令执行效率。

根据量化数据，一次简单的线程上下文切换（有CPU亲和性）耗时约 1.2微秒。在这段时间里，一颗现代CPU足以执行数万甚至数十万条指令。这意味着，高频的上下文切换是在“无谓地”浪费宝贵的计算资源。

如何减少上下文切换的影响

减少切换频率
- 无锁/锁无关编程：使用CAS（Compare-And-Swap）原子操作和无锁数据结构，避免因锁竞争导致的线程阻塞。
- 使用协程（用户态线程）：在用户空间进行任务调度，切换成本极低（仅保存几个关键寄存器，纳秒级），且不涉及内核态转换和缓存失效。Go语言的Goroutine是其典范。
- 合理配置线程池：根据任务类型（CPU密集型 vs I/O密集型）设置合适的线程数量，避免创建大量非必要的线程，导致过度调度。
- 批处理与合并：将多个小任务打包成一个大任务执行，减少调度单元的数量。
降低单次切换成本
- CPU亲和性（CPU Affinity）：将线程绑定到特定的CPU核心上运行。这能极大地提高缓存命中率，因为线程的热数据会持续保留在该核心的缓存中，有效降低了间接开销。