大话Linux内核中锁机制之内存屏障、读写自旋锁及顺序锁

浏览数：17 / 时间：2015年06月20日

大话Linux内核中锁机制之内存屏障、读写自旋锁及顺序锁

在上一篇博文中笔者讨论了关于原子操作和自旋锁的相关内容，本篇博文将继续锁机制的讨论，包括内存屏障、读写自旋锁以及顺序锁的相关内容。下面首先讨论内存屏障的相关内容。

三、内存屏障

不知读者是是否记得在笔者讨论自旋锁的禁止或使能的时候，提到过一个内存屏障函数。OK，接下来，笔者将讨论内存屏障的具体细节内容。我们首先来看下它的概念，Memory Barrier是指编译器和处理器对代码进行优化(对读写指令进行重新排序)后，导致对内存的写入操作不能及时的反应到读操作中（锁机制无法保证时序正确）。可能读起来有点绕口，没关系，我们继续讨论，内容完后，读者再回来阅读的时候便会有深层次的体会。在arch\x86\include\asm\system.h中定义。首先针对barrier函数（即在自旋锁部分先前看到的那个），它主要针对编译器的优化屏障，但它却阻止不了CPU重排指令时序。由于CPU存在重排时序等问题，因此仅仅有一个barrier是不够的，因此，内核还提供了如下几种机制，如下图3.1所展示的那部分函数。

图3.1 内核中的内存屏障函数接口

针对上述内容，值得一提的是，使用这些内存屏障，相当于停用了处理器或编译器提供的优化机制，显然这样的结果必然影响程序的性能。

那么这些函数如何能做到上述注释中提到的内容呢？下面我们来看一下它们到底是如何实现的。实现的核心其实是依靠如下指令：① lock指令（已在第一部分中提及）；② lfence指令：停止相关流水线，直到lfence之前对内存进行读取操作的指令全部完成；③ sfence指令：停止相关流水线，直到sfence之前对内存进行写入操作的指令全部完成；④ mfence指令：停止相关流水线，直到mfence之前对内存进行读取和写入操作的指令全部完成。了解完它们的核心指令后，再看其在内核中的源码实现，如图3.2所示。

图3.2 部分内核屏障函数的核心源码

图3.2只展示部分函数，但关于smp_rmb()等函数的实现比较复杂，添加一些了针对smp系统特有的保护代码，但其根本还是调用这些如rmb()等函数。至此，关于内存屏障部分的内容即讨论到这里，虽然内容较少，但其重要性不可忽略，同时，读者若再回头去看，去理解内存屏障的概念，是否会有新的收获呢。

四、读写自旋锁

接下来讨论读写自旋锁的实现原理，它其实是自旋锁的升级版。同样，我们先看看它能实现的功能：针对写：最多只有一个写进程；针对读：可以同时有多个读写单元。但读和写不能同时进行。它于include\linux\rwlock.h下定义，而它提供的函数形式和自旋锁类似，仅将“spin_”替换成“read_”或“write_”。包括read_lock(lock)和read_unlock(lock)、write_lock(lock)和write_unlock(lock)等。接下来我们来看下它该是如何使用的。而关于它的使用其实很简单，如图4.1所示，很好理解，即是在临界区前后分别加上加解锁函数即可，这里便不在细说。

图4.1 读写自旋锁的使用示例

然后我们来讨论它的实现核心。事实上，它的实现讨论起来也挺简单，就是有点绕。实现流程与spin_lock几乎完全一致，唯一不同的是最后调用体系结构相关的函数是arch_read_lock而不是arch_spin_lock(自旋锁的arch_spin_lock最终调用__ticket_spin_lock())等。

下面分析它的源码实现。假如现在有进程P1向操作系统申请了读写自旋锁，设读写锁变量A已经被定义，它的初值为RW_LOCK_UNLOCKED(0x01000000)。配合图4.2，图4.3所示的源码内容，若此时进程P1对它申请读锁操作，则read_lock()对读写锁变量A减1，如果相减后A的值结果为负，则说明此时系统中已经有某个进程（设为P2）对这个读写锁变量使用写锁函数write_lock()上锁，这时候系统便会持续等待P2对写锁的释放，持续等待过程的源码实现如图4.5所示。假如进程P1读锁申请成功，若P1在使用读锁过程中，存在另一个进程P3申请写锁操作。此时write_lock()对读写锁变量A减0x01000000并判断，如果结果非零，则说明此时锁变量A已被write_lock()函数上锁或用read_lock()函数上锁，进而便跳转到图4.6所示的写锁失败的汇编函数，持续等待锁变量A被进程P1释放。

图4.2 读锁函数的内核源码图4.3 写锁函数的内核源码

下面给出对应的解锁函数。如图4.4所示。

图4.4 解锁函数的内核源码

可以看出解锁函数中的实现其实简单的加1和减1操作。下面重点关注加锁函数中的两个申请锁失败时的两个的链接函数，如图4.5，图4.6所示。采用纯汇编实现，由于图4.5所示的源码和图4.6所示的源码内容实现机理实际上均是相同，故这里仅重点分析图4.5源码。图4.5的源码搞懂了，图4.6的源码自然也不是问题。

在分析源码前，可能读者对于源码中的rep指令等有些许疑问。事实上，rep重复串操作直到cx寄存器的内容为0为止。结合的指令有限，只有MOVS、STOS、LODS、INS和OUTS，如rep stosb;等。而rep; nop是一个混合指令，被翻译成pause指令。分号在此非注释，AT&T中表示指令的有效定界符。pause指令会向处理器提供一种提示：告诉处理器所执行的代码序列是一个自旋等待状态，处理器会根据这个提示而避开内存序列冲突(Intel手册说明)。

当read_lock()函数申请读锁失败后，首先将rw变量加1（注：rdi实际上代表的是rw，它们之间是通过寄存器来传递的，未加1前rw的值为-1）。紧接着，在执行cmpl指令前rdi的值为0，于是同立即数1进行比较。如果不相等，则继续跳转到“1”标志位处继续循环比较，直到相等，因为相等的时候，说明系统执行了读锁的释放函数，将rw变量加1了，具体可参看read_unlock()函数实现（图4.4所示）。此时在退出__read_lock_failed函数之前还需将rdi变量即rw变量减1，表示另一进程申请读锁成功，从而保证后续申请读写锁的进程的正确性。至此，已将__read_lock_failed函数源码分析完毕，至于__writed_lock_failed也是类似的思想，读者可自己类比推理即可理解。

图4.5 读锁函数中的跳转函数图4.6 写锁函数中的跳转函数

至此，关于读写自旋锁的内容基本讨论完毕。此时，读者若再回头去看，去理解读写自旋锁的功能，是否有更多新的收获呢。

五、顺序锁

紧接着笔者将讨论顺序锁的内容。它的定义如下：读执行单元不会被写单元阻塞，允许读写同时进行，但写单元之间仍然互斥。但是简单的从定义上看，我们很容易就能发现一个问题：读操作期间，发生写操作，怎么办？不用担心，内核必然考虑到了这一点，解决方法是：读执行单元重新读取数据，确保得到的数据是完整的。但需注意的是：被保护的资源不能含指针，否则重读的时候可能出问题(如指针被释放)。顺序锁在include\linux\seqlock.h文件中定义和实现。首先看下它的结构体实现，如图5.1所示。

图5.1 顺序锁的结构体定义

特别注意结构体中的sequence变量，这个变量是顺序锁核心内容，后续将会解释原因。然后我们讨论一下它的使用示例，如图5.2所示。示例中的do-while循环实现的就是本节一开始提到的那个问题，若读操作期间发生了写操作，则实现重读，而实现重读的关键就是对sequence变量的有效利用。

图5.2 顺序锁的使用示例

下面我们来看一下顺序锁的源码实现，如图5.3，图5.4，图5.5所示。首先针对写操作函数，图5.3所示，可以看到它实际上就是利用自旋锁是对sequence变量的保护，进程在申请写锁的时候，只是简单的将sequence变量的值增1，这和我们一开始关于自旋锁的例子特别的类似（读者可回头看看）。

图5.3 写操作函数的内核源码

对于读操作函数，依据图5.4，图5.5所示。可以看到在申请读锁的时候，首先将当前的所的顺序，也就是sequence变量的值保存下来（这时候已在do-while循环中），然后在read_seqretry函数中作判断，检测当前的读锁变量是否发生变化，若发生变化（调用写锁函数，sequence变量的值增1），则重新读，正如图5.2所给出的示例一般；若不发生变化，则表示申请读锁成功。至于源码中的unlikely()函数，那是内核中提供了关于变量检测的函数，它的检测速度比一般的if-else更快，至于为何快，将又是一套较复杂的内容，感兴趣的可以看查相关方面的资料，这里不再细说。