蝴蝶蘭一直長不好?MADS 和AP2基因家族來幫你

蝴蝶蘭是蘭科中種植規模最大,普及程度最廣的蘭科物種,我們在全基因組範圍內鑒定了蝴蝶蘭兩大與花器官發育相關的基因家族——MADS和 AP2 家族,並通過系統發育、基因結構、共線性等分析,明確了這兩大基因家族的基本屬性、以及擬南芥 ABCE 模型中花器官屬性基因在蝴蝶蘭中的對應直系同源基因。

我們通過對 PaMADS 和 PaAP2 兩大基因家族進行全基因組鑒定和分析,要明確這兩個家族的系統發育,基因結構特點,各個亞家族所包含之啟動子調控元件,這對於從這兩個家族中進一步挖掘植物發育或者逆境脅迫響應基因,有重要的參考價值。

MADS基因家族基因對蝴蝶蘭的影響

利用 TBtools 得到蝴蝶蘭全基因組序列與擬南芥參考序列的 blast 比對結果後,使用 NCBI中的 CDD 程序別處不含 MADS-box 保守結構域,通過這兩次篩選共得到 57 個蝴蝶蘭 MADS-box 基因家族成員,表 11對蝴蝶蘭 MADS-box 轉錄因子的基因編號、氨基酸數量、等電點、分子量進行了展示,並依次命名為PaMADSI~PaMADS57。通過對蝴蝶 MADS-box 基因編碼蛋白的理化性質進行分析,發現他們在氨基酸數量、等電點、分子量方面存在顯著差異。

從表中我們可得知,MADS-box 基因家族的成員,長度從 8aa 到 510 aa 不等。其中,小於 200aa 的有 17 個,佔總數的 29.8%。介於 200 a 至400a 的有38 個,佔總數的 66.7%。其餘的兩個為大於 400aa。分子量從 9556.1 到 55364.6不等。等電點在 4.4 和 10.87 之間,小於 7 的成員僅有 14 個,其餘成員呈鹼性。

II型 MADS-box 基因通常含有多個內含子。而I型 MADSbox 基因通常含有一個甚至沒有內含子[113,114。PaMADS家族基因結構分析發現type II 類型的成員的 gDNA 長度在 20,000 bp 以上,其所含的內含子數量最多的達到 11 個,多數為78 個。而 typel型的成員 gDNA 長度相對較短在 20,000 bp以下,有 9個成員含有一個內含子,有 20 個成員只含有一個或沒有內含子。

我們對植物、哺乳動物等一系列的研究表明,有無內含子對相同基因的表達有十分明顯的差異。內含子介導的增強效就是用來表示一種基因含有內含子結構比不含內含子結構表達量高的情況,剪接體剪切內含子這一過程幾乎可以影響到mRNA 表達調控的所有途徑。type的MADS 家族成員多涉及植物花、果、種子的發育,更需要精細化的表達調控,因此,此類成員內含子普遍多一些。

利用 MEME 軟件分析目標基因的氨基酸序列,共有 20 個 motif 被鑒定出來,結合 PaMADS 家族系統進化樹發現,親緣關係近的成員,其所含的 motif 也大多相似(圖2.4)。type-I型 PAMADS 蛋白含 MADS-box 結構域和 K-box 結構域,而 type-I 型蛋白不含 K-box 結構域。motif1 和 motif5 是構成 MADS 結構域的重要部分,而 motif2,motif4,motif6 構成了 K-box 結構域。50 個成員均含有motif1,而剩餘成員均含有 moti5:構成 K-box 結構域的 motif2,motif4,motif6也普遍存在於 PaMADS家族成員中,此外還有一些未知motif,如motif17、motil20motif15、motif10 等。

在進化過程中,MADS-box 蛋白保守性和多變性共存。值得注意的是,PaMADS20 和 PaMADS25 不存在 motifl 和 moti5,但經NCBI中 CCD-search 工具分析,確實有 MADS 結構域,進化樹中也被分在SVP,Ma分支。由此可見,該基因的拼接上存在 gap,導致其 motif 分析出現不一致的地方,類似的問題也出現在 PAMADS51 和 PAMADS46 中。

AP2基因家族基因對蝴蝶蘭的影響

利用MEME進行motif 預測,結果顯示,單個基因家族成員擁有的 motif數量為 3-7,所有的 PaAP2 家族成員均具有 motifl,說明motifl 是 PaAP2 家族共有的結構域。R4V亞家族的成員 (PaAP2-01~10) 都具有 otif7,motit8,且這兩個 motif 在其他亞家族中未見分佈,說明這兩個 motif 是 RAV 亞家族的特有序列,AP2 亞家族的特有 motif 是 motif2motif3。

對於 ERF 亞家族(PAAP2100~110),motif5,moti6,motif14,motif20 是其特色結構域。除了這三個亞家族,其餘三個亞家族尚未發現特徵 motif, 也有很多不是亞家族層面共有,只在亞家族內某些成員共有,或者跨亞家族成員之間共有,這顯示了該PAAP2家族成員保守性與變異性共存。

基因複製是指以母鏈為模版,從而使 DNA 片段複製出一個或多個拷貝,這種 DNA 片段可以是一小段基因序列抑或是一整條染色體,甚至是整個基因組。基因複製有兩種模式:串聯基因複製和大片段基因複製。

蝴蝶蘭AP2基因家族的Circos圖中連線部分表示: 蝶蘭 121 個AP2 家族成員中有 25 個基因之間存在共線性關係。但也不能忽略的是,該版本的蝴蝶蘭基因組組裝存在缺陷,未能準確組裝到染色體,因此蝴蝶蘭種內的共線性有待進一步研究。

在蝴蝶蘭與擬南芥的 4P2 基因中,共有 10 個基因存在共線性關係,僅有2個 Pa4P2基因與擬南芥 A1AP2 之間存在共線性關係,表明AP2基因家族擴張可能出現在蝴蝶蘭和擬南芥的分化之前。在擬南芥和蝴蝶蘭物種形成後,兩個物種的基因成員各自演化,造成現在明顯的微弱的染色體線性關係。

AP2 是一類龐大的轉錄因子,在植物的生長發育以及生物和非生物逆境響應中發揮重要作用,關於蝴蝶蘭 AP2 基因家族的研究未見報道,我們從蝴蝶蘭基因組中鑒定獲得 121條 PAAP2 基因序列,其中RAV亞家族有28個成員,DREB 亞家族有 19 個成員,AP2 亞家族有 20 個成員,ERF 亞家族有25個成員。

它們至少含有一段 60 個左右氨基酸殘基構成的 AP2 保守結構域,這和模式植物中 AP2 家族基因的結構特點相符合。AP2 亞家族成員具有 2個AP2保守結構域,ERF 亞家族成員具有1個AP2 保守結構域,RAV 亞家族成員具有1個AP2 保守結構域和 1個 B3 DNA 基序。

根據序列差異,ERF 亞家族可分為 DREB 組和 ERF 組。在擬南芥中,這兩個組的區別在於 AP2 結構域第 14 位和第 19 位的氨基酸有變化,DREB 組在第14 和 19 位的氨基酸分別是 V 和 E,ERF 組在第 14 位和 19 位氨基酸分別是 A和 D。但在對其他植物的研究中,DREB 組的第 14 位氨基酸殘基都為繳氨酸,但第 19 位氨基酸殘基不都為谷氨酸ERF組的第 14 位和第 19 位氨基酸殘基也並不都是丙氨酸天冬氨酸,且在該組成員中還存在第 14 位氨基酸殘基是綴氨酸的現象。

所以該位點的保守性並不是絕對的,且其在不同物種中的保守性也有些微差異。在蝴蝶蘭中,DREB 和 ERF 組成員的 AP2結構域的第 14 位氨基酸殘基分別為氨酸(V) 和丙氨酸(A),只有 5 個成員例外,其中 4個成員是絲氨酸(S),1 個是甘氨酸(G)。但蝴蝶蘭 DREB 和 ERF組在第 19 位氨基酸殘基上保守性不高,該位點存在谷氨酸(E)、天冬氨酸(D)、組氨酸(H)、亮氨酸(L)、丙酸(A)、甲硫(M)、(Q) 和氨酸(V)殘基,以及還有兩個成員分別是蛋氨酸(M)和天冬酷胺(N)。

結語

通過雙向 blast 和保守結構域驗證,共鑒定出 57 個 PaMADS 成員,分為type-I 型(29 個) 和 ype-Il型 (28 個)。ypeI 型大部分成員含 1個或不含內含子,type-II 型大部分成員含 5-8 個內含子。

該家族基因啟動子區含有諸多與非生物因素脅迫,以及光、植物激素和生長發育等順式作用元件。PaMADS家族中僅有 3 對成員具有共線性,表明該基因家族並未產生較大擴張,這可能也是該基因家族成員數偏少的原因之一,與 ATMADS 家族的共線性關係也比較微弱,表明在擬南芥和蝴蝶蘭物種形成後,前者的 MADSbox 基因經歷了多輪重要的染色體重排和融合,而該基因家族在蝴蝶蘭中則未經歷大規模複製事件。這就造成現在微弱的染色體線性關係。

通過系統發育分析,鑒定出蝴蝶蘭花器官屬性基因30 個。PaAP1和 PaAP2在尊片、花瓣都保持較高水平的表達,而在唇瓣和合蕊柱中表達量則下降。PaAP3在花瓣和唇瓣中保持高水平表達,而在尊片和合蕊柱中表達量很低: PaPI 與PaAP3 不同之處是只在唇瓣中保持着最高水平的表達。PaAG 基因的表達量在合蕊柱中最高,PaSEP 在尊片和花瓣中高水平表達,在唇瓣和合蕊柱中表達量很低30個蝴蝶蘭花器官屬性基因的 CAI平均值小於 1,表明基因的密碼子偏性較弱。

ARSCU法確定了9 個最優密碼子,其中有編碼 7 個密碼子ARSCU>0.5,G/C結尾的有 5個,以 A/T (U) 結尾的有 2 個,說明蝴蝶蘭花器官屬性基因偏好以G/C 結尾的最優密碼子,尤其偏愛以 C 結尾的密碼子,與大多數單子葉植物使用偏好類似。奇偶偏好性、中性繪圖及 ENC 繪圖分析進一步說明蝴蝶蘭花器官屬性基因同時受到選擇和鹼基突變的影響其中,前者的分量更重一些。