Mysql索引-B+樹

2022年06月30日03:01:24 科技 1844

開始分析前我們先來思考下如下的一些面試題:
1.InnoDB的索引數據結構是什麼?為什麼用這種數據結構?2.聚簇索引和普通索引的區別是什麼?3.什麼是回表操作?它對索引有什麼影響嗎?Mysql索引的B+樹的生長流程如下圖所示:

Mysql索引-B+樹 - 天天要聞

2.B+索引樹是如何生長的2.1 無索引時的數據查詢數據頁是Mysql中數據管理的最小單元,既然我們要研究索引是如何高效查詢數據的,首先我們肯定要搞清楚數據是如何存放的,數據頁的結構通過上篇文章我們了解到大概是這樣的:

Mysql索引-B+樹 - 天天要聞


而數據表中的每行數據就存放在數據區中,數據區中每行數據以單向鏈表的方式,通過指針連接起來,如下圖所示:

Mysql索引-B+樹 - 天天要聞


同時每個數據頁之間再通過雙向鏈表的方式組織連接起來,如下圖所示:

Mysql索引-B+樹 - 天天要聞


(1)無索引時的數據查詢
通過以上對數據頁以及數據頁內部數據結構初步的分析,現在我們就可以看下,如果說要查詢某張表的某行數據會經過什麼樣的流程。數據頁一開始當然是存放在磁碟中的,一張表對一般會應著多個數據頁,查詢數據時從磁碟中依次載入數據頁到InnoDB的緩衝池中,然後對緩衝池中緩存頁的每行數據,通過數據頁的單向鏈表一個一個去遍歷查找,如果沒有找到,那麼就會順著數據頁的雙向鏈表數據結構,依次遍歷載入磁碟中的其他數據頁到緩衝池中遍歷查詢。


大家可以看到,像上面這樣的查詢方式就有點傻了,因為如果恰好你要查的數據行在這張表最後一個數據頁的最後一行,那豈不是所有的數據頁都要被掃描一遍,然後每個數據頁中也是遍歷鏈表,整體的效果就是以O(n)的時間複雜度在遍歷鏈表了,這樣查詢的性能肯定是不行的。


(2)優化數據頁內查詢效率-槽位我們先把目光轉移到單個數據頁內的數據查詢,假如說我們現在已經鎖定數據就在某個數據頁中了,但是我們該怎樣快速的從這個數據頁中找到我們想要的那行數據呢?通過之前的分析我們可以知道,最傻的一種方式就是遍曆數據頁中的單向鏈表查詢,一個節點一個節點去掃描,相對應的查詢效率是肉眼可見的低。但是如果說可以像翻書一樣,根據目錄來減小我們查詢的範圍,相對應的查詢效率不就上來了嗎,根據這種想法,InnoDB存儲引擎設計了槽位這種方式來組織數據頁中的多個數據行,槽位信息存放在數據頁中的數據頁目錄中。


槽位簡單來說就是將數據頁中的多個數據行分組劃分,每個數據行組都找這個組中的主鍵值最大的那個數據行的地址作為槽位的信息,這樣數據頁目錄中的一個個槽位不就是像是一個個目錄了嗎,標記好了多個數據行分組的位置信息,如下圖所示:

Mysql索引-B+樹 - 天天要聞


這下有了數據頁目錄中的槽位信息,此時要查詢數據頁中的某行數據不就很簡答了,比如我們要查詢主鍵為4的那行數據,直接通過二分法以O(logn)的時間複雜度鎖定數據頁目錄中的槽位2,因為槽位之間都是緊密連接的,可以通過槽位2找到槽位1,從槽位1末尾開始,對分組2中的數據開始遍歷,因為每個分組中的數據量都很少,此時在這麼小的範圍內簡單遍歷下就可以快速找到主鍵為4的那行數據,時間複雜度從之前的O(n)降低到O(logn)效率還是挺可觀的。但是如果你不是通過主鍵去查詢的,槽位此時就排不上用場,你還得一個一個遍曆數據頁中的單向鏈表去找到你想要的那行數據。


2.2 索引的前夕-頁分裂

這裡我們先來個小插曲,簡單了解下頁分裂,這塊內容也是後面索引機制能夠正常運行的基礎。我們都知道一個數據頁就是16KB大小,當一個數據頁中的數據行足夠多時就會重新創建一個數據頁繼續寫數據行,如果說我們沒有用到索引還好,但是如果我們要在表中創建索引,那麼對多個數據頁中的數據就有約束了。


如果新創建的數據頁中的數據行的主鍵值,存在比它上一個數據頁的主鍵值還小的情況,這種情況是不被允許的,如下圖所示:

Mysql索引-B+樹 - 天天要聞

如果出現上圖的情況,多個數據頁之間的主鍵就無序了,而索引機制的實現是要基於多個數據頁主鍵的大小是依次遞增的,所以此時就會出現頁分裂的情況。


其實頁分裂目的也很明確,就是調整下不同數據頁的數據順序,使得最終按順序創建的索引頁之間,後一個數據頁中的每一個數據行的主鍵值都要大於上一個數據頁,當然一個數據頁中當然是按照單向鏈表的方式依次遞增的,頁分裂流程如下圖所示:

Mysql索引-B+樹 - 天天要聞


我們可以看到頁分裂主要就是調整了下數據頁之間數據行的數據的順序,使得多個數據頁之間的主鍵值是按照順序來存放的,在這樣有序的數據中,高效查詢才變得可能。頻繁的出現頁分裂情況,畢竟頁分裂要涉及到數據的移動,在性能上也是會有損耗的,這也警示我們減少頁分裂的出現概率是非常有必要的,在設計表結構時我們可以盡量使用主鍵自增長的方式,而不是用很難保證主鍵順序的自定義創建主鍵的方式,使用主鍵自增長方式,能大大避免說數據頁之間主鍵大小出現順序錯亂的問題,減少頁分裂發生的概率。


2.2 從主鍵目錄到索引頁

查詢一行數據,在物理層面就是定位到哪一個數據頁中的哪一行數據。在數據頁中定位數據的問題,在之前我們已經通過槽位的方式優化了查詢的效率,現在我們要解決的是如何在大量的數據頁中定位數據頁,這就是索引的目標。


(1)主鍵目錄
InnoDB存儲引擎一開始是使用主鍵目錄的方式,將數據頁號和數據頁最小的主鍵值作為一條記錄,如下圖所示:

Mysql索引-B+樹 - 天天要聞

這樣的話,我們要查哪一條數據就不用掃描一個數據頁內的所有數據再掃描下一個了,直接通過id去主鍵目錄看一下,通過二分查找定位到具體哪個數據頁,然後數據頁內部通過定位槽位,遍歷那個槽位對應數據行分組找到具體的一行數據。


(2)索引頁
現在有一個問題就是,每張表對應的數據頁都有很多,主鍵目錄就會有大量的數據、就有可能放不下,這時InnoDB設計者們就想存放目錄數據也是數據啊,為什麼不可以使用數據頁來放呢,就這樣主鍵目錄的信息就被移到數據頁來了,而這些數據頁就被稱為索引頁,如下圖所示:

Mysql索引-B+樹 - 天天要聞


從這裡我們可以知道數據頁肯定不是簡單只存放數據表中的數據的。好了,現在主鍵目錄由於容量有限,我們把主鍵目錄信息移動到了數據頁中形成了索引頁,但同樣的問題不還是會出現嗎,一個數據頁的大小也才16KB,索引頁本身的容量也是有限的,容量不夠了該怎麼辦呢?


為了解決索引頁容量不夠的問題,索引頁會重新創建和升級,先把超出容量的數據放到一個新的索引頁中,然後再加一層索引頁,如下圖所示:

Mysql索引-B+樹 - 天天要聞


由上圖我們可以看到,新的一層索引頁35它存放的就不是最小主鍵對應的數據頁目錄了,而是最小主鍵對應的索引頁目錄了,以此類推如果索引頁35這裡容量也不夠呢,那就繼續往上一層擴展啊,最終效果看起來就像下面一樣:

Mysql索引-B+樹 - 天天要聞


大家看出來了嗎,由索引頁一層一層組成的結構不就是我們經常說的索引樹嗎,而這棵樹在mysql中稱之為B+索引樹。樹這種數據結構天然可以使用二分法查詢,所以現在如果我們要查詢一條數據,從樹的根節點開始通過二分法查找,以O(logn)的時間複雜度鎖定數據頁,然後在數據頁中同樣使用二分法鎖定槽位,在槽位中簡單遍歷下不就找到數據了嗎,相比於沒有索引的場景,速度那可是相當快了。


3.聚簇索引、普通索引和覆蓋索引關於索引有一些常見的名詞我們需要加以區分。首先聚簇索引就是像我們上面看到的一棵樹一樣,它的葉子節點是一個個數據頁,這些數據頁中存放的都是數據表中每一行的完整數據,所以說如果B+樹是以完整數據的數據頁為葉子節點的,我們把這個索引樹稱為聚簇索引;如果一個索引的索引樹,葉子節點不是以數據頁為葉子節點的,就稱為二級索引或普通索引。


聚簇索引和普通索引最大的區別就是,聚簇索引的葉子節點存放了數據行的完整數據,而二級索引葉子節點只有數據的部分欄位。
而覆蓋索引本身並不是一種索引,而是一種查詢數據的方式,比如我們對錶table中的欄位name建立了索引,然後我們執行查詢如:select name from table where name like '張%',此時直接從name欄位對應的B+樹種查詢到對應的一批name值,然後直接就返回就行了,也就是說我們想要的欄位name它本來就在索引上,我們直接通過二分法高效的從樹上直接摘下來就行了,而這種查詢方式就稱為覆蓋索引。


當然相比於覆蓋索引方式,如果查詢改為:select * from table where name like '張%',這就不是覆蓋索引了,因為此時你不光要從索引樹上找到具體的name,還要利用id值回表查詢所有的欄位。


4.索引的優缺點分析索引的優點當然就是高效查詢數據,索引將遍歷鏈表的O(n)的查詢時間複雜度優化為了O(logn)的時間複雜度。但是索引的缺點也是很明顯的,首先在時間角度上,它必須要求主鍵是要按順序增長的,無序的主鍵會帶來頻繁的頁分裂,影響效率;對資料庫表的增刪改操作的同時也需要維護索引,這部分的維護也是一塊性能損耗點;在空間角度上:索引相關的數據和實際數據一樣都是要佔內存空間的。所以索引雖然能夠提高查詢效率,但是同時也要承擔它給我們的系統帶來的性能損耗,從這點上來看索引並不是建的越多越好。


5.三個維度設計好索引

下面我們從以下三個維度優化下索引的設計

(1)首先我們從時間角度上我們需要為了避免頻繁的頁分裂,需要儘可能使用主鍵自增長等方式,保證新增的數據頁中的數據行的主鍵都是遞增,避免不必要的頁分裂帶來的性能損耗和拖慢查詢效率。


另外選擇合適的欄位作為索引欄位也很重要,需要選擇基數較大的欄位,也就是一個欄位可能出現的值比較多,這樣我們在B+樹中查詢時,才能最高效的發揮出二分法查詢的威力,如果建立索引的欄位基數比較小可能查詢時二分查找就會退化成時間複雜度為O(n)的線性查詢了。


(2)空間的角度上
因為索引數據本身也是要佔空間的,可以選擇欄位長度較小的作為索引欄位,這樣整棵B+樹不至於那麼占空間。但是如果非得要以長欄位作為索引也不是不行,可以採用折中的以欄位的前綴作為索引,這樣的索引也稱為前綴索引,但是這樣可能只能用在模糊查詢上了,用在group by和order by上就不太適合了。


(3)作用範圍上
當然我們設計索引的目的,當然是為了更好的用上索引,索引在設計時,儘可能讓where、group by、order by這些語句都能用上索引。

科技分類資訊推薦

最新消息!她已離職!曾凌晨發文道歉 - 天天要聞

最新消息!她已離職!曾凌晨發文道歉

本月初,百度副總裁璩靜在短視頻平台上發布的幾條出鏡視頻引髮網友關注,特別是其提到「員工鬧分手提離職我秒批」等職場話題引髮網友質疑,一度登上微博熱搜。
淘寶取消「618」預售機制後,京東宣布「現貨開賣」 - 天天要聞

淘寶取消「618」預售機制後,京東宣布「現貨開賣」

繼5月7日天貓宣布取消「618」預售機制後,5月8日,京東也正式宣布「現貨開賣」。今年京東618將於5月31日晚8點全面開啟。據了解,現貨開賣的同時,京東還將同步推出百億補貼日活動。在6月2日、6月3日、6月8日,還將先後推出9.
細思極恐網路暴力和群毆 - 天天要聞

細思極恐網路暴力和群毆

互聯網高速發展利用時代踏實做事和說實話的人都不被人待見,時時刻刻遭受網路暴力,聲討,群毆,格力電器董明珠,踏踏實實做企業,創稅收,促進就業,,為國家為人民奉獻大半輩子青春,心血, 汗水,本該退休安享晚年,侍弄兒孫遺憾找不到合適放心接班人,七
探秘vivo影像之美,與X系列技術溝通會共同見證卓越藍圖 - 天天要聞

探秘vivo影像之美,與X系列技術溝通會共同見證卓越藍圖

前段時間的vivo X系列新品發布讓我們記憶深刻,而剛剛結束結束的「影像新藍圖X系列技術溝通會」也十分精彩,這次溝通會不僅告訴了大家vivo在影像領域的最新成果,也讓粉絲們對vivo影像背後的故事有更多了解,在vivo影像的發展歷程中可以分成兩方面,一方面,vivo通過自主研發,不斷提升自身的影像技術實力,另一方面,vivo...
華為再次亮劍,鴻蒙系統亮點多多 - 天天要聞

華為再次亮劍,鴻蒙系統亮點多多

5月15日,華為夏季全場景新品發布會簡直是一場視覺與科技的盛宴,看得我熱血沸騰!不得不說,華為這次真的是大招頻出,新品多到讓人眼花繚亂!先說說那個華為MatePad 11.5 」 S吧,一亮相就讓人眼前一亮!它的設計簡約而不失時尚,屏幕清晰得讓人彷彿置身其中。
【新機】升級了個寂寞?藍廠新機發布 - 天天要聞

【新機】升級了個寂寞?藍廠新機發布

昨天晚上藍廠發布了新機iQOO Neo9s Pro,機子採用了6.78英寸1.5K 8T LTPO直面屏,支持144Hz刷新率。搭載天璣9300+,前置1600萬像素,後置IMX920主攝+5000萬超廣角。電池容量5160mAh,支持120W快充。新增白色版本,用上了白色玻璃後蓋,顏值確實提升了不少。不過還是塑料中框+短焦指紋。12+256GB 2699元
AI Agent在哪些行業領域會產生影響? - 天天要聞

AI Agent在哪些行業領域會產生影響?

在如今飛速前進的科技浪潮中,人工智慧(AI)技術的創新正以前所未有的速度重塑我們的生活和工作的每一個角落。在這一浪潮中,Agent AI智能體以其卓越的能力脫穎而出,它通過模擬人類智能行為,能夠勝任一系列複雜任務,並在多個領域展現出了其無法替代的價值。