海量、多模態生物醫學數據,讓存儲基礎設施迎來「高考」

2023年06月27日18:24:07 財經 7411

生老病死是無法改變的自然規律,但人類一直沒有停止過對疾病的抗爭,這不是對死亡的恐懼,而是對生命的敬畏。

現代醫學的發展史,就是一部科學的發展史,兩者總是相輔相成。醫學的發展讓人類的壽命大大提高,讓更多科技成果得以湧現,同樣,科學的發展也賦予了醫學更精準有效的治療手段。

而隨著人類文明進入到信息化時代,生物醫學作為現代醫學的分支和新興的跨學科領域,也迎來快速的發展。隨著生物醫學大數據的增長,生物醫學的發展也進入了嶄新的階段。蘇州大學的生物醫學研究,正通過高通量測序技術和AI技術,不斷挖掘數據的價值,探索生命的奧秘。

01

高通量測序:下一代測序技術

「基因」始終帶著神秘色彩,它是DNA上的特定部分,而DNA是支持著生命的基本構造和性能,儲存著生命的種族、血型、生長、疾病等信息的生命密碼,人類大約有2.5 萬個基因來實現生命功能。

海量、多模態生物醫學數據,讓存儲基礎設施迎來「高考」 - 天天要聞

基因組學通過對生物體所有DNA和基因的研究,在改變著人類的未來,針對遺傳出生缺陷的產前檢測,腫瘤基因檢測,病毒和細菌的基因研究等,通過基因組測序都能找出「元兇」。而這門學科的關鍵,是其背後的海量數據。作為一項天然數據密集型業務,基因組測序可以基於更多的樣本數據,快速研發新葯或提供精準的診療服務。

但是最初的基因組測序技術的效率卻並不高,人類第一次完整基因組測序耗費了13年之久,且成本巨大。

蘇州大學基礎醫學與生物科學學院特聘教授,博士生導師李玉梅博士說,「在生物醫學領域,我們應用最多的就是高通量測序數據。」

有別於第一代測序技術,高通量測序技術是第二代測序技術,一個最顯著的變化就是速度很快,過去要花費十年的測序時間,高通量測序技術只需要不到一天就可以完成,而且價格也非常低。

所以,高通量測序技術是對傳統一代測序的一次革命性改變,可以一次對幾十萬到幾百萬條DNA分子進行序列測定,因此也被稱為下一代測序技術。「有了海量的數據,便可以分析人的遺傳突變、基因功能等,進一步分析基因突變的原因,突變與疾病之間的關係,就可以有針對性地去開發新的診斷方法和治療藥物。」李玉梅說。

高通量測序技術的快速發展,改變了人類研究生命藍圖的方式,同時也帶來了爆炸式增長的測序數據,目前數據存儲和傳輸都是亟需解決的問題。

02

直面生物醫學的數據驅動

隨著技術的成熟和成本的下降,生物數據通量急劇提升,這必然會帶來諸多挑戰。

海量、多模態生物醫學數據,讓存儲基礎設施迎來「高考」 - 天天要聞

以高通量測序為例,通過測序技術可以解析生物DNA序列特徵,包括遺傳變異檢測、序列圖譜構建等。尤其在人類健康研究中,需要了解基因的結構,功能,相互作用以及與各種人類疾病之間的關係,尋求各種治療和預防方法,包括藥物治療、基於生物大分子結構及小分子結構的藥物設計等。

第一個挑戰就是數據量巨大。以基因組測序為例,從最初的人類基因組,擴展到其他動物、植物、遠古生物、細菌、病毒的基因組,且目前已經涉及到腫瘤、遺傳病等疾病的檢測。因此,產生的數據種類和數據量是異常龐大的,通常以PB為單位保存。這就要求在系統中必須配置海量存儲,以滿足測序數據的存放。

第二個挑戰是存儲的穩定性。李玉梅說,「我們對存儲的基本要求,就是要穩定,盡量不在存儲和運行的過程中出現任何問題。」

其實,這個簡單的邏輯,在測序領域,要真正做到,卻是「堪比登天」。

此前,清華大學構建了一個RUSH系統,用於小鼠大腦的分析。這個實驗環境中,有28個1200萬像素的攝像頭,不間斷地高速拍攝小鼠腦圖。要求是每秒鐘拍攝30幀,並且要連續拍攝72個小時,且任何一幀的數據都不能丟。

浪潮信息存儲產品線分散式存儲總經理姜樂果說,「當時在跟清華大學的老師溝通時,他們起初認為國內的設備,很難達到這樣的一個效果。浪潮就在工廠里,按照清華大學的要求,搭建了一個1:1還原的鏡像環境,持續跑了三個月,做到了數據完全不丟失,最終得到了清華大學的認可。」

第三個挑戰是數據的處理效率。一個人的基因組大概是3個GB,包含了30億個鹼基。在全基因測序過程中,為了保證基因數據的完整性,需要平行測序30次,當最終測序完成後,全基因組數據將達到100GB左右,所以對數據分析的效率提出了更高要求。

03

解鈴還須繫鈴人

實際上,基因組測序場景本身,就是一次對全方位存儲能力的「檢驗」過程。

第一,由於測序的整個過程不允許被中斷,這就要求支撐測序應用的存儲系統,具備極致的穩定性和可靠性;

第二,測序數據分析工作中,對存儲系統的性能提出很高要求;

第三,在數據歸檔階段,需要將海量基因數據長期、完整、安全的保存起來,存儲系統的採購成本也是一個很大的挑戰。

李玉梅說,「生物醫學研究,背後是很大的數據量,因此我們對計算的需求就變高。同時隨著測序的價格降低,數據越測越多,對存儲的成本控制能力也提出了要求。」

海量、多模態生物醫學數據,讓存儲基礎設施迎來「高考」 - 天天要聞

解鈴還須繫鈴人,解決生物醫學數據驅動的關鍵,還在於存儲設備本身。

浪潮新一代分散式存儲平台AS13000G7就是一個很不錯的選項。

在總體架構設計上,其支持五合一架構的融合存儲,購買一套存儲,即可享有塊、文件、對象、大數據、視頻五種服務。對於基因測序場景不同處理階段,數據格式轉換和數據拷貝會降低整個數據處理流程效率的問題,給出一個很好的答案。

在高性能方面,基於Intel至強四代可擴展處理器,支持PCIe 5.0高速匯流排、DDR5高速緩存,搭載自研NVMe SSD,通過盤控協同實現了端到端聯合調優。相較上一代產品,分散式存儲AS13000G7性能整體提升40%。

在成本優化上,AS13000G7的單一集群最大擴展至10240節點,單一文件系統支持千億文件,通過智能演算法,存儲空間利用率達到94%以上,高利用率其實等於幫助用戶節省了成本。

海量的生物醫學數據,不斷對存儲系統提出新的挑戰,同時也在加速存儲技術的革新。從基因組測序到探索生命健康的密碼,生命不息,創新不止。

財經分類資訊推薦

最新發布的799元3.5寸超小屏手機,這外觀好騷! - 天天要聞

最新發布的799元3.5寸超小屏手機,這外觀好騷!

要說手機圈裡的遺老遺少,那麼LCD屏黨和小屏手機黨絕對是存在感最強的兩個人群了。而小智恰好又都符合,畢竟LCD屏的護眼和小屏手機的單手握持便攜是目前主流手機都沒有的特質。而目前市面上的LCD屏手機是越來越少,估計2025就是LCD絕種元年
哪吒汽車被南寧國資起訴 - 天天要聞

哪吒汽車被南寧國資起訴

DoNews6月29日消息,6月25日,人民法院公告網公布的一份起訴狀副本及開庭傳票顯示,南寧產投汽車工業集團有限責任公司因買賣合同糾紛,起訴合眾新能源汽車股份有限公司等8家哪吒汽車關聯公司。因眾聯天下汽車銷售服務有限公司、哪吒合智(上海)汽車銷售服務有限公司、哪吒汽車香港投資有限公司3家公司「下落不明」,法院以...
周末利好,下周機會在哪裡? - 天天要聞

周末利好,下周機會在哪裡?

大家好,我是滬麒麟,請動動您發財的小手指,點擊右上方「關注」,不錯過最新股市乾貨內容,點關注不迷路!本周A股指數5個交易日走出3連陽加2個陰線調整,但是周線還是收取一根放量陽線,並且滬指創出年內新高,深成指和創業板指也突破且站上了半年線關鍵
真正「高大上」的是責任和使命|亞投行十年 - 天天要聞

真正「高大上」的是責任和使命|亞投行十年

2015-2025,十年間,由中國倡議發起的新型多邊開發銀行——亞洲基礎設施投資銀行(AIIB)從57個創始成員發展至110個成員,覆蓋全球81%的人口和65%的GDP。這顆精心播下的種子,如今已經生根發芽、開花結果。
紫光展銳完成IPO輔導備案:估值或達700億元! - 天天要聞

紫光展銳完成IPO輔導備案:估值或達700億元!

6月28日,中國證監會網站發布公告顯示,紫光展銳(上海)科技股份有限公司(以下簡稱「紫光展銳」)已於6月27日在上海證監局辦理輔導備案,擬在科創板首次公開發行股票並上市。這也意味著紫光展銳有望成為國產智能手機晶元第一股。公開資料顯示,紫光展銳成立於2013年8月26日,是我國集成電路設計業的領軍企業,全面掌握2G...
周末打虎!東航原董事長劉紹勇被查 - 天天要聞

周末打虎!東航原董事長劉紹勇被查

6月28日,中央紀委國家監委網站發布消息,中國東方航空集團有限公司原黨組書記、董事長劉紹勇涉嫌嚴重違紀違法,目前正接受中央紀委國家監委紀律審查和監察調查。劉紹勇(資料圖)劉紹勇出生於1958年11月,畢業於中國民航飛行學院,一級飛行員,19
研設計 促合作 河北企業組團2025第二十屆中博會上覓商機 - 天天要聞

研設計 促合作 河北企業組團2025第二十屆中博會上覓商機

長城網·冀雲客戶端訊(河北經濟日報記者 袁立朋)6月27日上午,第二十屆中國國際中小企業博覽會(以下簡稱「中博會」)在廣州市開幕,河北展區亮相。與此同時,與會河北企業負責人在河北省工信廳組織下在廣東考察交流,對接商機。參觀廣東工業設計城。