長期以來,研究人員在從頭設計(de novo design)具有新穎結構的靜態蛋白質方面取得了巨大成功,但如何精確設計並可控地誘導蛋白質發生精細的、域內(intradomain)的構象變化,卻一直是生物設計領域的「聖杯」,一個難以逾越的挑戰。天然的激酶(kinases)在形成活性位點時的螺旋(helix)旋轉,或g蛋白偶聯受體(gpcrs)暴露結合界面時的螺旋彎折,都屬於這種精密的域內運動。傳統的物理模型難以捕捉到構象間微小的能量差異,而「黑箱」式的深度學習模型又往往缺乏對分子機制的深入洞察。這讓研究者們在實現真正可編程的蛋白質功能上舉步維艱。5月22日《science》上的一項突破性研究「deep learning–guided design of dynamic proteins」,為我們描繪了一個充滿希望的新篇章!它巧妙地將深度學習的強大預測能力與原子級分子模擬(molecular simulations)的可解釋性融為一體,如同為「黑箱」裝上了透明的玻璃,讓我們既能看到「變形金剛」的強大,又能理解其內部的精妙齒輪如何運轉。這項研究不僅成功地從頭設計出能夠精確切換兩種預設構象(pre-specified conformations)的動態蛋白質,更實現了通過配體(ligand)結合和遠端(distal sites)變構突變(allosteric mutations)對其構象平衡(conformational equilibrium)的精細調控。最令人振奮的是,他們首次揭示了這些動態開關背後的原子相互作用網絡,並能基於此進行精準的「再編程」!這不僅僅是蛋白質設計領域的一次技術飛躍,更是為構建未來生物計算、智能藥物遞送,乃至全新生命系統奠定了堅實的基礎。挑戰重重:為何動態蛋白設計如此困難?首先,早期的蛋白質構象開關(conformational switches)設計工作,大多集中於側鏈重排(side-chain rearrangements)或大規模的鉸鏈式結構域運動。在這些設計中,蛋白質內部的大多數原子間相互作用(atomic-level intra-domain interactions)通常保持不變。這就簡化了設計問題,因為我們不必擔心整個蛋白質骨架(backbone)的複雜重塑。然而,天然調控器中常見的複雜、可控的域內構象變化機制,其原子尺度的相互作用網絡(atomic-interaction networks)會發生顯著的重組,這對於從頭設計而言,至今沒有通用的方法能夠實現。其次,傳統的基於物理的模型(physics-based models)難以精確模擬這些構象狀態之間微小的能量差異(small energetic differences)。要設計一個能夠穩定在兩種或多種構象狀態之間切換的蛋白質,我們需要精確地預測每種狀態的能量,並確保目標狀態(user-specified folded states)比非目標狀態(off-target folded states)或無序狀態(disordered states)具有更低的能量,且差異足夠小,以便實現動態切換。這在域內構象變化這樣精細的尺度上尤為困難。最後,雖然「黑箱」式的深度學習模型在預測蛋白質結構和設計序列方面展現出驚人的能力,但它們往往缺乏生物物理可解釋性(biophysical understanding)。我們知道模型「能行」,卻不清楚「為何能行」,這就限制了我們對設計系統進行深入理解和精細調控的能力。為了克服這些挑戰,研究人員提出了一種創新的解決方案:將先進深度學習方法的高性能和速度與分子模擬的可解釋性結合起來。他們認為,通過這種結合,不僅能夠從頭設計可控的域內運動模式(intradomain modes of motion),還能深入理解其背後的原子相互作用網絡。這就像是既能造出「變形金剛」,又能完全掌握其內部的齒輪與線路,從而實現對其行為的精準控制。 樂高積木與偵探推理:巧妙的「三步走」戰略這項研究的核心在於其通用的設計方法,該方法利用深度學習來引導多態設計(multistate design)過程中序列空間(sequence space)和結構空間(structure space)的搜索。整個過程可以概括為巧妙的「三步走」戰略,每一步都環環相扣,邏輯嚴謹:第一步:創世之初:定義「理想形態」在這一階段,研究人員首先要確定他們希望設計的蛋白質能夠切換的「目標構象狀態」。這就像是為「變形金剛」設定了兩種明確的「形態」,一種是綁定活性形態(state 1),另一種是綁定失活形態(state 2)。我們以一個具體的例子來深入理解:研究人員選擇了一種工程化的鈣離子結合蛋白(engineered ca2+ binding protein)作為他們的起始結合活性態(state 1)。這個蛋白質來源於肌鈣蛋白c(troponin c)的n端結構域(n-terminal domain),其天然野生型(wild-type)包含兩個ef手型基序(ef hand motifs),都能在低微摩爾(low micromolar)濃度下結合鈣離子(ca2+)。但為了簡化研究,他們使用了一個變體,即在ef手型基序i中引入了e41a點突變(point mutation),這使得位點i對鈣離子的親和力(affinity)減弱至毫摩爾(millimolar)範圍,而位點ii仍然保持中等微摩爾親和力。更重要的是,這個e41a突變體在結合鈣離子時不會發生構象變化,這為他們提供了一個穩定的結合活性態。接着,他們需要從頭生成(de novo generate)另一個全新的、結合失活的「形態」(state 2)。他們利用了一種名為「循環-螺旋-循環單元組合採樣算法」(lucs algorithm)的方法,對蛋白質中包含環iii、螺旋c和鈣離子結合位點ii的連續區域——他們稱之為「重塑區域」(reshaped region)——進行構象採樣。這個過程就像是用「樂高積木」來拼搭一個全新的結構,但又確保它與原始結構在某些方面不同。他們生成了大約1000種不同的構象,平均鈣rmsd(ca root mean square deviation)達到了7.1埃(Å),這與天然信號蛋白中功能性構象變化的尺度相當。實驗驗證,確保「形態」真實可控:為了快速篩選這些從頭設計的state 2序列,研究人員將每個設計與c端c-myc標籤融合,並在酵母表面進行展示。酵母表面展示水平通常與蛋白質的穩定性相關,因此可以作為設計可行性(designability)的初步指標。在初步篩選的11個單態設計(single-state designs)中,有10個設計顯示出高表面展示水平,表明它們具有良好的穩定性。研究人員進一步深入表徵了設計#6306,因為它在重塑區域具有與state 1截然不同的構象,涉及到重塑螺旋c的旋轉和翻譯。最關鍵的是,鈣離子結合環被顯着重塑,形成了不利於結合的構象。實驗結果確實證實,設計#6306在鈣離子濃度高達1毫摩爾(1 mm)時,不結合鈣離子,這與他們的預期完全一致。為了從原子層面驗證設計#6306的結構,研究人員通過核磁共振(nuclear magnetic resonance, nmr)技術解析了其結構。結果顯示,實驗解析的結構(以青色表示)與alphafold2(af2)預測的模型(灰色)之間具有非常出色的一致性,鈣rmsd(ca rmsd)為0.98埃(Å)(不包括環區)。這一數據強有力地證明,他們從頭設計出的state 2骨架不僅具有可設計性(designable),而且確實不利於配體(ligand)結合,使其成為雙態設計中結合失活態的理想選擇。 第二步:尋覓「天選之子」:深度學習下的多態設計有了兩種明確定義的構象狀態(state 1和state 2),下一步就是設計能夠同時兼容這兩種構象,並能在它們之間切換的序列。關鍵在於,這些序列不僅要高度相似,還要能以不同程度佔據兩種狀態,從而實現構象平衡的調控。傳統的做法可能會將所有重塑區域及其相鄰殘基位置都設置為可設計(designable),但這會導致搜索空間過於龐大。為了更高效地尋找「天選之子」,研究人員運用深度學習的力量,特別是alphafold2(af2)進行結構預測,來縮小可搜索的序列空間,並將採樣重點放在決定狀態偏好的關鍵位置。他們利用af2進行計算突變掃描(in silico mutational scan),評估了在設計#6306(預測採納state 2構象)中引入突變後,其預測結構是否仍然保持state 2構象,同時又增加了與state 1序列的相似性。如果預測結構與state 2構象的鈣rmsd(ca rmsd)小於1.5埃(Å),則認為該突變在state 1的「可耐受序列空間」內。通過這個過程,他們識別出了最少殘基集(minimal set of residues),這些殘基在確定狀態偏好方面至關重要。最終,可設計殘基的數量從37個減少到25個。隨後,他們使用蛋白質mpnn(proteinmpnn),一個基於深度學習的序列設計工具,進行多態設計。令人驚奇的是,他們發現了一系列af2結構預測結果表明,這些設計要麼完全處於state 1,要麼完全處於state 2,或者處於兩者的混合狀態,甚至包括結構中間體(structural intermediates)。這些序列與原始state 1序列(1smg)相比,有18個突變;與高序列相似度的單態state 2設計相比,有15個突變。最關鍵的發現是:這些設計彼此之間只在一個殘基位置——第89位——上存在差異!而第89位殘基位於重塑區域之外,並且與鈣離子結合位點相距超過15埃(Å)。這使得研究人員預測,第89位殘基將作為一個變構位點(allosteric site),其氨基酸身份(amino acid identity)的變化可以改變重塑區域中各狀態的布居(populations of states),包括遠端鈣離子結合位點構象。具體來說,第89位較小的氫鍵供體和受體(hydrogen bond donors and acceptors)傾向於state 2,因為它們與環iii的骨架形成氫鍵,使其更靠近中心螺旋d。相反,體積龐大和/或疏水性氨基酸(bulky and/or hydrophobic amino acids)則將環iii推向更符合state 1的構象。af2對第89位遠端重塑區域的置信度指標(plddt)也因氨基酸身份的不同而顯著變化,進一步支持了這一推測。 第三步:「乾坤挪移」:精細調控構象平衡一旦確定了能夠切換的蛋白質序列,下一步就是尋找方法來精細調控它們的構象平衡,就像是調整「變形金剛」的模式切換旋鈕。這可以通過兩種方式實現:一是通過配體結合(ligand binding),即在構象變化區域內的活性位點結合效應物;二是通過變構擾動(allosteric perturbations),即作用於與活性位點偶聯的遠端位點。 變構調節:一子落,滿盤皆活!為了驗證第89位殘基的氨基酸身份是否真的能決定構象平衡,研究人員選擇了五種af2預測行為各異的設計進行實驗,包括s89(預測偏好state 2)、n89(混合狀態)和i89(預測偏好state 1)。他們通過二維氫-15n異核單量子相干(2d ¹h,¹⁵n-hsqc)核磁共振光譜對這些設計進行了表徵。令人震驚的是,僅僅是一個單點突變,就導致了截然不同的核磁共振譜圖:與s89(state 2偏好)相比,i89(state 1偏好)譜圖中92個骨架酰胺峰中有67個顯示出顯著的化學位移變化(aδhn > 0.03 ppm 或 aδn > 0.4 ppm)。這表明這些殘基經歷了不同的化學環境,與兩種狀態在快速交換(fast exchange)中的兩態平衡模型高度一致。s89和i89的化學位移處於變化範圍的兩端,而n89則介於兩者之間。更深入的分析顯示,化學位移的變化不僅局限於突變位點89附近,而且擴散到重塑區域內的遠端殘基,包括鈣離子結合位點ii及其相鄰殘基,這與重塑區域整體構象的集合平均變化(ensemble-averaged conformation)一致。為了直接評估設計i89的動態特性,研究人員進一步收集了不同溫度下的核磁共振譜圖。他們觀察到,峰強度(peak intensity)的變化局限於重塑區域及其鄰近殘基,這與重塑區域內因動態變化引起的化學環境改變一致。在較高溫度下(35°c),峰強度更高,表明系統處於快速交換狀態;而在較低溫度下(5°c),則表現為譜線展寬(line broadening),表明交換速率減慢。此外,他們還測量了i89設計中15n旋轉參考系弛豫率(r1ρ values),發現在重塑區域及其鄰近殘基中r1ρ值較高。這種行為與微秒到毫秒時間尺度(micro-to-millisecond timescale)的化學交換一致。他們通過化學位移數據估算的交換時間上限為小於10毫秒(ms),進一步的弛豫色散(relaxation dispersion)實驗則將上限收緊至42微秒(µs)。這表明,設計的重塑區域在低微秒時間尺度上發生着可控的構象交換,這與天然蛋白質中類似尺度的運動(25)相媲美。 正構調節:配體驅動,構象隨行!除了變構調節,研究人員還希望通過配體結合來調節構象平衡,使蛋白質在結合鈣離子時優先穩定在state 1。他們對每個點突變體進行了鈣離子添加實驗。結果表明,添加鈣離子後,重塑區域及其鄰近殘基發生了顯著的化學位移擾動(aδhn > 0.03 ppm 或 aδn > 0.4 ppm),影響了大約30個額外的峰。由於s89的核磁共振結構與結合失活態(state 2)一致,而i89具有相當大的結合活性態(state 1)布居,因此化學位移變化的趨勢與平衡向state 1轉移的方向一致。他們通過監測重塑鈣離子位點殘基的化學位移變化來測量鈣離子結合親和力。正如預期,隨着結合活性態state 1的估計布居增加,鈣離子結合親和力也隨之增加。不同設計間的鈣離子結合親和力呈現出約10倍的差異:i89設計的kd值(解離常數)估計為1.6 ± 0.2 mm(v71)和3.9 ± 0.2 mm(d78);n89設計為20 ± 2 mm(v71)和11.6 ± 0.4 mm(d78);s89設計為22 ± 2 mm(v71)和14.6 ± 0.4 mm(d78)。這些結果證實,即使是與最近鈣離子結合殘基相距超過15埃的遠端89位點上的突變,也能變構調節鈣離子結合位點的構象平衡,進而影響其結合親和力。最後,他們解析了在鈣離子存在下i89的核磁共振結構。結果顯示,該全酶結構與他們的計算state 1模型高度吻合,鈣rmsd為1.34埃(Å)(不包括環區),且結合位點ii的骨架構象與已知的ef手型結合基序一致。儘管全酶i89比無鈣離子i89有更多與state 1一致的距離限制,即使在過量鈣離子存在下,仍觀察到一些與state 2一致的核磁共振距離限制,這表明蛋白質仍存在殘餘動態性。綜上所述,這些結構和實驗結果證實,他們設計的序列家族在溶液中確實採納了重塑區域的兩種目標構象狀態,並且這些狀態的布居可以通過變構突變和鈣離子結合來調節。 揭秘「聯動機制」:md模擬與互信息分析為了更深入地了解所設計的構象轉換背後的原子級相互作用機制,研究人員進行了分子動力學(molecular dynamics, md)模擬。在無鈣離子條件下,i89設計顯示出state 1和state 2之間可逆的轉換,這與他們的設計預測和實驗數據高度一致。對聚合的36微秒(µs)無鈣離子i89模擬數據進行馬爾可夫狀態模型(markov state model, msm)擬合,估計總交換時間下限約為3微秒(µs)。結合r1ρ數據得到的42微秒(µs)上限,這表明重塑區域在低微秒時間尺度上發生交換,這與天然蛋白質中類似尺度的運動相當。與此形成對比,在鈣離子存在下模擬i89時,未觀察到構象轉換,鈣離子在模擬過程中一直結合在位點ii。這與實驗數據一致,鈣離子能穩定state 1構象。s89設計在無鈣離子條件下,在幾微秒的模擬過程中始終保持state 2構象。儘管在鈣離子存在下,s89未顯示向state 1的轉換,但重塑區域的波動性更大,與state 1的rmsd更小。md模擬結果有力地支持了設計的兩種狀態在低微秒時間尺度上的交換,顯示鈣離子在i89中優先穩定state 1,並與89位點的變構調節一致。鑒於設計預測、md模擬和核磁共振數據之間的高度一致性,研究人員進一步探討md結果能否解釋變構調節的機制,並做出可驗證的預測。他們對無鈣離子i89 md軌跡中的側鏈扭轉動力學(side-chain torsional dynamics)進行了互信息分析(mutual information analysis),發現了一個疏水核心殘基網絡,它將鈣離子結合位點ii(殘基70-76)的扭轉運動與環iii(殘基50-58)和螺旋d(殘基80-94)中的遠端殘基耦合起來。關鍵的是,變構殘基89直接面向環iii。結合實驗結果,md模擬結果揭示了變構機制:第89位殘基的氨基酸身份通過空間位阻(sterics)或氫鍵相互作用(hydrogen bonding)影響螺旋d與環iii之間的相互作用,這些相互作用又通過已識別的相關疏水網絡,變構地影響遠端鈣離子結合位點構象。 預測性驗證:預言成真,設計精準!為了驗證這些狀態特異性相互作用,研究人員對已識別網絡中的殘基進行了突變預測,以期優先穩定state 1。他們通過三種方式評估了這些突變體:frame2seq評分: frame2seq是一種結構條件下的掩碼語言模型(masked language model),用於預測序列的可能性。研究人員預測,y64f(酪氨酸到苯丙氨酸)突變對state 2具有破壞性,因為它無法與y43和e81形成氫鍵,但在state 1中是中性的,因為苯丙氨酸仍可與y88形成π-π堆疊。同樣,k68e(賴氨酸到谷氨酸)突變對state 2也應具有破壞性,因為它不能與e81形成穩定的靜電相互作用,但在state 1中是中性的,因為它暴露在溶劑中。對於這兩種突變,frame2seq預測突變氨基酸相對於原始氨基酸,在state 1中具有更高的可能性,而在state 2中則更低。alphafold2(af2)預測: af2預測這些突變體將以比原始i89序列更高的置信度採納state 1構象。nmr hsqc光譜: 2d ¹h,¹⁵n-hsqc光譜與預期的向state 1布居轉移(shift in population toward state 1)一致。這些結果證實,新的突變能夠成功地進一步調節開關的平衡,證明了設計和預測的精準性。 開啟可編程生命系統新紀元這項研究的成果具有里程碑式的意義。它成功地展示了一種通用的方法,能夠從頭設計具有兩個可指定構象狀態的蛋白質,並且這些狀態之間的相互轉換可以被配體濃度(正構調節)和遠端位點突變(變構調節)所調節。與以往主要基於結構域替換或鉸鏈式運動的從頭設計開關不同,這項工作設計的蛋白質能夠在不同的原子相互作用網絡之間切換。這意味着,以前無法觸及的、受天然信號傳導(如激酶和gpcrs)啟發的新型域內運動模式,現在可以通過從頭設計實現,極大地擴展了可訪問的功能空間。這項研究最顯著的觀察之一是深度學習預測、實驗數據和物理模擬之間強大的對應關係。這種高度一致性不僅驗證了設計的有效性,還為揭示開關雙穩態(bistability)機制提供了可檢驗的假設,並允許研究人員在原子水平上調控構象平衡。這歸因於他們設計方法中的具體特點,特別是通過序列和結構空間搜索,將可設計位置縮小到那些被預測為工程化構象變化的關鍵決定因素。深度學習驅動的蛋白質序列設計和結構預測的速度和推理能力,使得這種方法最終能夠設計出穩定兩種結構狀態的獨特殘基網絡。這種對設計系統的深入洞察,對於推進變構調節的從頭設計至關重要。深度學習和物理模擬之間的協同作用——在本研究中用於從頭設計動態蛋白質——將有助於開發未來的設計方法,從而實現對構象景觀(conformational landscapes)和交換時間尺度(timescale of exchange)的預測性控制。儘管當前設計方法尚未明確考慮過渡態(transition state barriers),但新興方法,如在模擬和/或實驗數據上訓練模型,有望解決這些問題。這項工作為從頭設計可編程信號系統(programmable signaling systems)奠定了基礎,將促進實現更複雜的行為,如從頭信號整合(de novo signal integration)或與能量輸入耦合的協同運動(concerted motions coupled to energy inputs)。此外,這種方法還可以應用於將非天然運動(non-native motions)工程化到天然蛋白質中,以控制它們的活性。簡而言之,這項研究不僅向我們展示了如何打造具有生命力的「變形金剛」蛋白質,更重要的是,它揭示了我們如何通過深度學習和物理模擬的協同作用,去理解和重新編程生命的「語言」,開啟生物設計的新篇章!
參考文獻
guo ab, akpinaroglu d, stephens ca, grabe m, smith ca, kelly mjs, kortemme t. deep learning-guided design of dynamic proteins. science. 2025 may 22;388(6749):eadr7094. doi: 10.1126/science.adr7094. epub 2025 may 22. pmid: 40403060.