2021年2月,據報告,7名俄羅斯家禽養殖場工人感染了H5N8禽流感。這種禽流感亞型以前從未感染過人類,病毒的基因序列很快上傳到基因數據存儲庫GISAID。
對於華盛頓特區喬治城大學的生物學家科林·卡爾森(Colin Carlson)來說,這提供了一個機會。“我立刻想到,'我想通過FluLeap運行它',”他說。
FluLeap是一種機器學習算法,它使用序列數據將流感病毒分類為禽流感病毒或人類病毒。該模型已經在大量的流感基因組上進行了訓練 , 以了解感染人類和感染鳥類的基因組之間的差異。
但是該模型從未見過被歸類為人類的H5N8病毒,卡爾森很好奇它對這種新亞型的影響。
有點令人驚訝的是,該模型以99.7%的置信度將其識別為人類。該模型不是簡單地在其訓練數據中重申模式,例如H5N8病毒通常不會感染人的事實,而是似乎推斷出與人類相容性的一些生物學特徵。
“令人驚訝的是,這個模型奏效了,”卡爾森說。“但這是一個數據點;如果我能再做一千次,那就更令人驚嘆了。
病毒從野生動物傳播到人類的人畜共患過程導致了大多數流行病。隨着氣候變化和人類對動物棲息地的侵佔增加了這些事件的頻率,了解人畜共患病對於預防流行病的努力至關重要,或者至少對於做好更好的準備至關重要。
研究人員估計,地球上約有1%的哺乳動物病毒已被鑒定出來。因此一些科學家試圖通過對野生動物進行採樣來擴展我們對這種全球病毒組的了解。
這是一項艱巨的任務,但在過去十年左右的時間裡,出現了一門新學科——研究人員使用統計模型和機器學習來預測疾病出現的各個方面,例如全球熱點、可能的動物宿主或特定病毒感染人類的能力。
這種“人畜共患風險預測”技術的倡導者認為,它將使我們能夠更好地將監測目標定位到正確的區域和情況,並指導最有可能需要的疫苗和治療方法的開發。
然而,一些研究人員對預測技術應對病毒組的規模和不斷變化的性質的能力持懷疑態度。改進模型及其所依賴的數據的努力正在進行中,但如果這些工具要減輕未來的流行病,它們將需要成為更廣泛努力的一部分。
病毒搜尋
一些研究人員長期以來一直認為,擴大我們對病毒多樣性的了解將有助於管理大流行威脅。PREDICT是一個由美國國際開發署(USAID)資助的2億美元項目,花了大約十年的時間尋找動物病毒。截至2020年底,它在34個國家的野生動物、牲畜和人的樣本中發現了949種新病毒。
事後看來,PREDICT的一些發現似乎很有先見之明。2017年的一項研究估計,蝙蝠中有數千種未被發現的冠狀病毒,並預測東南亞將是SARS-CoV-2所屬家族中病毒數量最多的家園。它還將涉及高水平的人與野生動物接觸的活動與冠狀病毒的流行率聯繫起來。
2017年的另一項研究收集有關哪些病毒感染哪些哺乳動物的數據,創建病毒-宿主關聯的數據庫。“目標是了解哪些病毒能夠感染人類,我們最常從哪些動物那裡感染新病毒以及驅動這些模式的潛在因素,”紐約市生態健康聯盟的生態學家和研究負責人Kevin Olival說,這是一個專註於生物監測和保護的非營利機構。
研究小組的分析表明,特定宿主物種中可以感染人類的病毒比例受到人類與該物種的密切關係以及影響人類與野生動物接觸的因素的影響,例如人口密度和該物種地理範圍內的城市化程度。
該團隊使用統計模型來預測可能攜帶大量未被發現病毒的動物群體和地區 - 蝙蝠以及嚙齒動物和靈長類動物在南美,非洲和東南亞等地區佔有突出地位。研究人員還發現與病毒相關的特徵是人畜共患的,例如它可以感染的物種範圍。
該團隊表示,這些信息可以幫助指導監視工作。“它使我們能夠預測風險最大的地區,”加州大學戴維斯分校的流行病學家Jonna Mazet說,他指導了PREDICT。
識別具體威脅還使當地研究人員和衛生保健工作者能夠調整緩解和應對能力。“它允許社區說'我們有這個,這個和這個,我們可以通過這種方式降低風險',”Mazet說。
PREDICT只是一個試點項目。“它生成了大量數據,但這只是杯水車薪,”Olival說。“我們需要更大的東西。”因此,研究人員於2016年提出了全球病毒項目(GVP),該項目被視為政府機構,非政府組織和研究人員的全球夥伴關係,旨在發現哺乳動物和鳥類(大多數人畜共患病毒起源)中的大多數病毒。
然而,面對一些研究人員的批評,它從未獲得資助。Mazet說,它今天作為一個非營利組織存在,旨在為各國提供開展自己的病毒調查所需的知識。美國國際開發署於 2021 年 10 月啟動了一個規模較小、成本低得多的項目,名為“發現和探索新興病原體——病毒性人畜共患病 (DEEP VZ)。
對GVP的一個批評是,任務的規模根本無法管理。預測研究人員估計4哺乳動物和鳥類中有167萬種未知病毒,儘管這個數字存在爭議,但毫無疑問,病毒組是巨大的。
它也在不斷變化,因此一次性的發現工作是不夠的。“RNA病毒以很高的速度進化,”澳大利亞悉尼大學的病毒學家愛德華·霍姆斯說。“所以你必須繼續這樣做。”
也有人懷疑該項目是否會發現潛在的流行病。“在理解病毒進化和生態學方面,我對它沒有問題,”福爾摩斯說。“但作為了解接下來會發生什麼的預測工具,它是不可能的。
一個問題是,一些宿主物種和病毒家族已經得到了深入研究,但其他物種和病毒家族幾乎沒有被觸及。現有數據也偏向於已經溢出的病毒。因此,到目前為止,大多數預測都是基於“完全有偏見的數據”,新西蘭奧塔哥大學的病毒學家Jemma Geoghegan說。
此外,即使發現了病毒並對其基因組進行了測序,許多可能影響其引發大流行潛力的因素,例如其感染人類和在人與人之間傳播的能力,仍然不清楚。“然後你必須做所有這些實驗,這將需要數年時間,花費一大筆錢,”福爾摩斯說。
這就是機器學習可能提供捷徑的地方。與其試圖完全表徵每種新病毒,不如使用模型來標記高優先級目標以進行進一步調查。“我們需要的是下游的分類系統,這樣我們就知道哪些病毒需要通過深入的病毒學研究來表徵,”科羅拉多大學博爾德分校的病毒學家Sara Sawyer說。
模型內部
當一種病毒被發現時,除了它的基因序列之外,通常對它知之甚少。因此,僅使用病毒基因組對病毒進行分類的模型將特別有用。英國格拉斯哥大學的計算病毒學家Nardus Mollentze和他的同事開發了一個這樣的模型,該模型部分通過使用病毒與人類基因組部分遺傳相似性的測量來評估病毒。
病毒的進化壓力可能導致與宿主基因組中的基因片段相似 - 逃避先天免疫系統或幫助複製。當在包含861種已知病毒的病毒庫上進行測試時,該算法可以將它們分類為人畜共患病毒或非人畜共患病毒,準確率為70%。
此後,Mollentze加入了病毒出現研究計劃(Verena),這是一個尋求開發和改進人畜共患預測模型的研究人員聯盟。
Mollentze與Verena研究人員合作,將他的算法與利用哪些病毒感染哪些宿主的知識的技術相結合,包括推斷未知宿主 - 病毒關聯的方法。這種組合方法將績效提高了大約 10 個百分點7.將來,可以納入病毒如何在分子水平上與宿主相互作用的知識。
“這將是關於蛋白質和生物化學的,”指導Verena的Carlson說。“這就是這個的未來。”
一個重要的目標是了解哪些模型運行良好,以及為什麼。有些模型僅根據數據中的模式進行分類,有些模型可以推斷這些模式的原因,但很難區分它們。“有一個問題:我們只是教機器重申他們已經知道的事情,還是在學習帶入新空間的原則?”卡爾森說。
為了取得進展,驗證模型的過程至關重要。例如,一些研究試圖預測哪些物種宿主人畜共患病毒,結果好壞參半,但幾乎沒有系統比較,因此很難知道哪種方法有效。
為了解決這個問題,在2020年初,Verena研究人員使用預測哪些蝙蝠物種可能攜帶β冠狀病毒作為案例研究。他們創建了八個統計模型,並使用它們生成可疑主機列表。在接下來的16個月里,發現了47個新的蝙蝠宿主。
當研究人員將這些與他們的預測進行比較時,他們發現一半的模型表現明顯優於偶然性。這些模型包括物種的壽命或大小等特徵。其他四個模型沒有考慮到這些功能,表現不佳。
數據開發
任何人工智能(AI)算法都從根本上受到其輸入數據的限制。“當算法在大量質量數據上進行訓練時,人工智能就會起作用,”索耶說。“但每年只發生少量溢出效應,病毒數據往往很臟,有很多信息缺失。大多數研究人員都認為目前的數據不足。“我們沒有足夠的高質量數據來做好預測工作,”Mazet說。
在某種程度上,建模依賴於科學家收集新數據,但到目前為止,病毒發現工作都是出於諸如最高風險地點和情況等考慮因素。Carlson說,建模者真正需要的是旨在提高地理和分類覆蓋率的抽樣。
為模型提供更多此類數據會改變可以提出的問題的視野。“有了一百萬個數據點,你可以展示森林砍伐如何增加蝙蝠的病毒流行率,”卡爾森說。“有了一萬億個點,你可以像天氣一樣預測溢出效應。
要接近這一點,需要全球合作,以開放數據共享為規範,每個人都遵守數據標準。這方面的障礙更多的是政治、文化和倫理,而不是科學。例如,圍繞出版物的學術激勵是快速數據共享的障礙。保證共享遺傳數據的國家從中受益也至關重要。
“這是關鍵問題,處理它涉及建立信任,”奧利瓦爾說。“確保你不僅要用疫苗,還要通過培訓、能力建設和論文合著來回饋社會。”
2014年生效的國際條約《名古屋議定書》規定了各國對包括生物樣本在內的自然資源的主權,並允許它們要求籤訂惠益分享協議以換取獲取此類樣本。
然而,一些實驗室現在可以合成病原體或開始僅使用基因測序數據開發疫苗。“我們在國際法中沒有任何涉及序列數據的規定,”卡爾森說。“名古屋不是為那個世界而生的。
”類似的問題有一天可能適用於人畜共患的風險預測。“我們正在使用全球南方研究人員收集的數據,”卡爾森說。“關於獲取這些數據並制定技術意味着什麼,存在合理的問題。
預測和準備
為了使建模產生實際影響,它必須導致可公開訪問的工具,提供可操作的、與當地相關的信息。建模還需要更好地與實驗工作相結合,以詢問病原體的特徵。
正如模型可能會標記候選病毒以供進一步研究一樣,這些調查也可能產生可用於驗證和優化模型的信息。然而,跨學科交流目前受到限制。“這些社區不怎麼交談,甚至不怎麼閱讀彼此的論文,”索耶說。
建模者還需要清楚地傳達他們工作中固有的不確定性,以及他們所說的預測的含義,這樣他們就不會過度誇大收益。“沒有人說我們將擁有將導致下一次大流行的確切時間、地點和物種,”奧利瓦爾說。研究人員正在處理概率,意想不到的事情可能而且確實會發生。
即使在最好的情況下,預測工具也無法完全防止疫情爆發。“我絕對不認為我們應該將世界安全與這些模式掛鈎,”卡爾森說。
但是,隨着全球監測系統的改善、有針對性的疫苗開發以及在全球範圍內建立衛生保健能力的努力,它們的價值是顯而易見的。“他們讓我們做兩件事:了解我們周圍發生的事情並確定優先級,”卡爾森說。最終,這可能有助於減少流行病的頻率。“我們可以更好地預防其中的一些,”卡爾森說。“但這需要我們在我們正在做的事情上做得更好。
參考文獻
1.Carlson, C. J. et al. Phil. Trans. R. Soc. Lond. B 376, 20200358 (2021).
2.Anthony, S. J. et al. Virus Evol. 3, vex012 (2017).
3.Olival, K. et al. Nature 546, 646–650 (2017).
4.Carroll, D. et al. Science 359, 872–874 (2018).
5.Wille, M., Geoghegan, J. L. & Holmes, E. C. PLoS Biol. 19, e3001135 (2021).
6.Mollentze, N., Babayan, S. A. & Streicker, D. G. PLoS Biol. 19, e3001390 (2021).
7.Poisot, T. et al. Preprint at https://arxiv.org/abs/2105.14973 (2022).
8.Becker, D. J. Lancet Microbe 3, E625–E637 (2022).