開始分析前我們先來思考下如下的一些面試題:
1.InnoDB的索引數據結構是什麼?為什麼用這種數據結構?2.聚簇索引和普通索引的區別是什麼?3.什麼是回表操作?它對索引有什麼影響嗎?Mysql索引的B+樹的生長流程如下圖所示:
2.B+索引樹是如何生長的2.1 無索引時的數據查詢數據頁是Mysql中數據管理的最小單元,既然我們要研究索引是如何高效查詢數據的,首先我們肯定要搞清楚數據是如何存放的,數據頁的結構通過上篇文章我們了解到大概是這樣的:
而數據表中的每行數據就存放在數據區中,數據區中每行數據以單向鏈表的方式,通過指針連接起來,如下圖所示:
同時每個數據頁之間再通過雙向鏈表的方式組織連接起來,如下圖所示:
(1)無索引時的數據查詢
通過以上對數據頁以及數據頁內部數據結構初步的分析,現在我們就可以看下,如果說要查詢某張表的某行數據會經過什麼樣的流程。數據頁一開始當然是存放在磁盤中的,一張表對一般會應着多個數據頁,查詢數據時從磁盤中依次加載數據頁到InnoDB的緩衝池中,然後對緩衝池中緩存頁的每行數據,通過數據頁的單向鏈表一個一個去遍歷查找,如果沒有找到,那麼就會順着數據頁的雙向鏈表數據結構,依次遍歷加載磁盤中的其他數據頁到緩衝池中遍歷查詢。
大家可以看到,像上面這樣的查詢方式就有點傻了,因為如果恰好你要查的數據行在這張表最後一個數據頁的最後一行,那豈不是所有的數據頁都要被掃描一遍,然後每個數據頁中也是遍歷鏈表,整體的效果就是以O(n)的時間複雜度在遍歷鏈表了,這樣查詢的性能肯定是不行的。
(2)優化數據頁內查詢效率-槽位我們先把目光轉移到單個數據頁內的數據查詢,假如說我們現在已經鎖定數據就在某個數據頁中了,但是我們該怎樣快速的從這個數據頁中找到我們想要的那行數據呢?通過之前的分析我們可以知道,最傻的一種方式就是遍曆數據頁中的單向鏈表查詢,一個節點一個節點去掃描,相對應的查詢效率是肉眼可見的低。但是如果說可以像翻書一樣,根據目錄來減小我們查詢的範圍,相對應的查詢效率不就上來了嗎,根據這種想法,InnoDB存儲引擎設計了槽位這種方式來組織數據頁中的多個數據行,槽位信息存放在數據頁中的數據頁目錄中。
槽位簡單來說就是將數據頁中的多個數據行分組劃分,每個數據行組都找這個組中的主鍵值最大的那個數據行的地址作為槽位的信息,這樣數據頁目錄中的一個個槽位不就是像是一個個目錄了嗎,標記好了多個數據行分組的位置信息,如下圖所示:
這下有了數據頁目錄中的槽位信息,此時要查詢數據頁中的某行數據不就很簡答了,比如我們要查詢主鍵為4的那行數據,直接通過二分法以O(logn)的時間複雜度鎖定數據頁目錄中的槽位2,因為槽位之間都是緊密連接的,可以通過槽位2找到槽位1,從槽位1末尾開始,對分組2中的數據開始遍歷,因為每個分組中的數據量都很少,此時在這麼小的範圍內簡單遍歷下就可以快速找到主鍵為4的那行數據,時間複雜度從之前的O(n)降低到O(logn)效率還是挺可觀的。但是如果你不是通過主鍵去查詢的,槽位此時就排不上用場,你還得一個一個遍曆數據頁中的單向鏈表去找到你想要的那行數據。
2.2 索引的前夕-頁分裂
這裡我們先來個小插曲,簡單了解下頁分裂,這塊內容也是後面索引機制能夠正常運行的基礎。我們都知道一個數據頁就是16KB大小,當一個數據頁中的數據行足夠多時就會重新創建一個數據頁繼續寫數據行,如果說我們沒有用到索引還好,但是如果我們要在表中創建索引,那麼對多個數據頁中的數據就有約束了。
如果新創建的數據頁中的數據行的主鍵值,存在比它上一個數據頁的主鍵值還小的情況,這種情況是不被允許的,如下圖所示:
如果出現上圖的情況,多個數據頁之間的主鍵就無序了,而索引機制的實現是要基於多個數據頁主鍵的大小是依次遞增的,所以此時就會出現頁分裂的情況。
其實頁分裂目的也很明確,就是調整下不同數據頁的數據順序,使得最終按順序創建的索引頁之間,後一個數據頁中的每一個數據行的主鍵值都要大於上一個數據頁,當然一個數據頁中當然是按照單向鏈表的方式依次遞增的,頁分裂流程如下圖所示:
我們可以看到頁分裂主要就是調整了下數據頁之間數據行的數據的順序,使得多個數據頁之間的主鍵值是按照順序來存放的,在這樣有序的數據中,高效查詢才變得可能。頻繁的出現頁分裂情況,畢竟頁分裂要涉及到數據的移動,在性能上也是會有損耗的,這也警示我們減少頁分裂的出現概率是非常有必要的,在設計表結構時我們可以盡量使用主鍵自增長的方式,而不是用很難保證主鍵順序的自定義創建主鍵的方式,使用主鍵自增長方式,能大大避免說數據頁之間主鍵大小出現順序錯亂的問題,減少頁分裂發生的概率。
2.2 從主鍵目錄到索引頁
查詢一行數據,在物理層面就是定位到哪一個數據頁中的哪一行數據。在數據頁中定位數據的問題,在之前我們已經通過槽位的方式優化了查詢的效率,現在我們要解決的是如何在大量的數據頁中定位數據頁,這就是索引的目標。
(1)主鍵目錄
InnoDB存儲引擎一開始是使用主鍵目錄的方式,將數據頁號和數據頁最小的主鍵值作為一條記錄,如下圖所示:
這樣的話,我們要查哪一條數據就不用掃描一個數據頁內的所有數據再掃描下一個了,直接通過id去主鍵目錄看一下,通過二分查找定位到具體哪個數據頁,然後數據頁內部通過定位槽位,遍歷那個槽位對應數據行分組找到具體的一行數據。
(2)索引頁
現在有一個問題就是,每張表對應的數據頁都有很多,主鍵目錄就會有大量的數據、就有可能放不下,這時InnoDB設計者們就想存放目錄數據也是數據啊,為什麼不可以使用數據頁來放呢,就這樣主鍵目錄的信息就被移到數據頁來了,而這些數據頁就被稱為索引頁,如下圖所示:
從這裡我們可以知道數據頁肯定不是簡單只存放數據表中的數據的。好了,現在主鍵目錄由於容量有限,我們把主鍵目錄信息移動到了數據頁中形成了索引頁,但同樣的問題不還是會出現嗎,一個數據頁的大小也才16KB,索引頁本身的容量也是有限的,容量不夠了該怎麼辦呢?
為了解決索引頁容量不夠的問題,索引頁會重新創建和升級,先把超出容量的數據放到一個新的索引頁中,然後再加一層索引頁,如下圖所示:
由上圖我們可以看到,新的一層索引頁35它存放的就不是最小主鍵對應的數據頁目錄了,而是最小主鍵對應的索引頁目錄了,以此類推如果索引頁35這裡容量也不夠呢,那就繼續往上一層擴展啊,最終效果看起來就像下面一樣:
大家看出來了嗎,由索引頁一層一層組成的結構不就是我們經常說的索引樹嗎,而這棵樹在mysql中稱之為B+索引樹。樹這種數據結構天然可以使用二分法查詢,所以現在如果我們要查詢一條數據,從樹的根節點開始通過二分法查找,以O(logn)的時間複雜度鎖定數據頁,然後在數據頁中同樣使用二分法鎖定槽位,在槽位中簡單遍歷下不就找到數據了嗎,相比於沒有索引的場景,速度那可是相當快了。
3.聚簇索引、普通索引和覆蓋索引關於索引有一些常見的名詞我們需要加以區分。首先聚簇索引就是像我們上面看到的一棵樹一樣,它的葉子節點是一個個數據頁,這些數據頁中存放的都是數據表中每一行的完整數據,所以說如果B+樹是以完整數據的數據頁為葉子節點的,我們把這個索引樹稱為聚簇索引;如果一個索引的索引樹,葉子節點不是以數據頁為葉子節點的,就稱為二級索引或普通索引。
聚簇索引和普通索引最大的區別就是,聚簇索引的葉子節點存放了數據行的完整數據,而二級索引葉子節點只有數據的部分字段。
而覆蓋索引本身並不是一種索引,而是一種查詢數據的方式,比如我們對錶table中的字段name建立了索引,然後我們執行查詢如:select name from table where name like '張%',此時直接從name字段對應的B+樹種查詢到對應的一批name值,然後直接就返回就行了,也就是說我們想要的字段name它本來就在索引上,我們直接通過二分法高效的從樹上直接摘下來就行了,而這種查詢方式就稱為覆蓋索引。
當然相比於覆蓋索引方式,如果查詢改為:select * from table where name like '張%',這就不是覆蓋索引了,因為此時你不光要從索引樹上找到具體的name,還要利用id值回表查詢所有的字段。
4.索引的優缺點分析索引的優點當然就是高效查詢數據,索引將遍歷鏈表的O(n)的查詢時間複雜度優化為了O(logn)的時間複雜度。但是索引的缺點也是很明顯的,首先在時間角度上,它必須要求主鍵是要按順序增長的,無序的主鍵會帶來頻繁的頁分裂,影響效率;對數據庫表的增刪改操作的同時也需要維護索引,這部分的維護也是一塊性能損耗點;在空間角度上:索引相關的數據和實際數據一樣都是要佔內存空間的。所以索引雖然能夠提高查詢效率,但是同時也要承擔它給我們的系統帶來的性能損耗,從這點上來看索引並不是建的越多越好。
5.三個維度設計好索引
下面我們從以下三個維度優化下索引的設計
(1)首先我們從時間角度上我們需要為了避免頻繁的頁分裂,需要儘可能使用主鍵自增長等方式,保證新增的數據頁中的數據行的主鍵都是遞增,避免不必要的頁分裂帶來的性能損耗和拖慢查詢效率。
另外選擇合適的字段作為索引字段也很重要,需要選擇基數較大的字段,也就是一個字段可能出現的值比較多,這樣我們在B+樹中查詢時,才能最高效的發揮出二分法查詢的威力,如果建立索引的字段基數比較小可能查詢時二分查找就會退化成時間複雜度為O(n)的線性查詢了。
(2)空間的角度上
因為索引數據本身也是要佔空間的,可以選擇字段長度較小的作為索引字段,這樣整棵B+樹不至於那麼占空間。但是如果非得要以長字段作為索引也不是不行,可以採用折中的以字段的前綴作為索引,這樣的索引也稱為前綴索引,但是這樣可能只能用在模糊查詢上了,用在group by和order by上就不太適合了。
(3)作用範圍上
當然我們設計索引的目的,當然是為了更好的用上索引,索引在設計時,儘可能讓where、group by、order by這些語句都能用上索引。