技術文章:編譯器的寄存器分配

因為存儲速度成本之間的問題,電腦的整個存儲系統按照CPU從近到遠可以分為4級:寄存器、cache緩存、主內存、硬碟。

離CPU最近的寄存器,讀寫速度最快

離CPU最遠的硬碟,讀寫速度最慢。

包括C語言在內的大多數語言,是不需要關注寄存器怎麼分配的。這部分的工作被編譯器處理了。

當然,彙編語言是需要手動分配寄存器的。

程序員在寫彙編時,會按照自己的直覺給出一個寄存器分配方案。

例如 5 / 3 = 1;彙編是這麼寫的:

mov 5, eax

xor edx, edx

mov 3, ecx

div ecx

這時,在eax里,餘數在edx里。英特爾的CPU就是這麼設計除法指令的。

除法使用固定的寄存器eax和edx,是CISC架構的缺點,讓寄存器的分配變得麻煩。

如果是int a = 5, b = 3, c = a / b;

那麼就要盡量給c分配寄存器eax,因為除法的商默認就在eax里,這樣可以提高生成的彙編碼的效率

如果是c = a % b,那麼就要盡量給c分配寄存器edx,因為餘數默認就在edx里。

因為寄存器只有16個,在程序規模較大的時候,是沒法這麼理想的分配寄存器的。

編譯器里,寄存器的分配是根據變數之間的活躍度來的:同時活躍變數不能使用同一個寄存器,否則數據就互相覆蓋了。

c = a / b這行代碼的被除數a和除數b肯定是同時活躍的,在除法指令運行的那一刻它們必須同時有效(而且互相覆蓋)。

c與a、b並不是同時活躍的,它是在除法運行之後開始活躍。

如果變數a在這行代碼之後不再使用,那麼c和a是可以共用eax的。

如果後續還要使用a,那麼就不能共用eax。例如:

int a = 5, b = 3;

int c = a / b;

c += a; // a在這裡還是活躍的,不能在第二行c = a / b時被覆蓋。

這時就只能給c分配eax,同時edx除法指令佔用,所以a和b只能使用ecx和ebx

以上代碼翻譯成彙編:

mov 5, ecx // a使用ecx

mov 3, ebx // b使用ebx

mov ebx, eax // 載入被除數的最低32位到eax

xor edx, edx // 被除數的高32位清零

div ebx // 真正的除法運算只是這一條

add ecx, eax // c += a

上面2行代碼c = a / b, c += a的寄存器衝突圖,如上。

給這個圖的3個頂點a、b、c著色,被衝突線連接兩個頂點不能是同一個顏色,即不能分配同一個寄存器

因為CISC的除法使用edx,我們把它也作為一個約束條件添加到這個圖裡:變數a是不能使用它的,因為它會被除法運算的餘數覆蓋,而a在c += a這行代碼還要使用。

c可以使用它,但c作為除法運算的商應該優先分配eax,否則就還需要多1條mov eax, edx的彙編碼。

64位寄存器的位元組分配

實際CPU的寄存器是個64位的寄存器組,它的最低8位AL、次低8位AH、最低16位AX、最低32位EAX、整個寄存器RAX的關係如圖。

al和rax是衝突的:

char buf[8] = {0};

char c = 'A';

char* p = buf;

*p += c;

如果指針p使用了rax,那麼char類型的變數c就不能再使用al,反之也一樣。

代碼 *p += c里,指針變數p和字元變數c是同時活躍的。

這種情況可以通過掩碼來判斷,可以用1個二進位表示寄存器的1個位元組

1,RAX是8位元組的寄存器,掩碼就是0xff。

2,al是1位元組的寄存器,掩碼就是0x1。

3,ah的掩碼是0x2,因為它使用的是第2個位元組。

4,ax的掩碼是0x3,2個位元組。

5,eax的掩碼是0xf,4個位元組。

如果掩碼的與運算不為0,就是互相衝突的寄存器,不能用於同一個變數。

當然不是同一個寄存器組的寄存器,肯定是不衝突的。

ah和al是不衝突的,因為0x2 & 0x1 == 0。

ah和ax是衝突的,因為0x2 & 0x3 != 0。