海量、多模態生物醫學數據,讓存儲基礎設施迎來「高考」

2023年06月27日18:24:07 財經 7411

生老病死是無法改變的自然規律,但人類一直沒有停止過對疾病的抗爭,這不是對死亡的恐懼,而是對生命的敬畏。

現代醫學的發展史,就是一部科學的發展史,兩者總是相輔相成。醫學的發展讓人類的壽命大大提高,讓更多科技成果得以湧現,同樣,科學的發展也賦予了醫學更精準有效的治療手段。

而隨著人類文明進入到信息化時代,生物醫學作為現代醫學的分支和新興的跨學科領域,也迎來快速的發展。隨著生物醫學大數據的增長,生物醫學的發展也進入了嶄新的階段。蘇州大學的生物醫學研究,正通過高通量測序技術和AI技術,不斷挖掘數據的價值,探索生命的奧秘。

01

高通量測序:下一代測序技術

「基因」始終帶著神秘色彩,它是DNA上的特定部分,而DNA是支持著生命的基本構造和性能,儲存著生命的種族、血型、生長、疾病等信息的生命密碼,人類大約有2.5 萬個基因來實現生命功能。

海量、多模態生物醫學數據,讓存儲基礎設施迎來「高考」 - 天天要聞

基因組學通過對生物體所有DNA和基因的研究,在改變著人類的未來,針對遺傳出生缺陷的產前檢測,腫瘤基因檢測,病毒和細菌的基因研究等,通過基因組測序都能找出「元兇」。而這門學科的關鍵,是其背後的海量數據。作為一項天然數據密集型業務,基因組測序可以基於更多的樣本數據,快速研發新葯或提供精準的診療服務。

但是最初的基因組測序技術的效率卻並不高,人類第一次完整基因組測序耗費了13年之久,且成本巨大。

蘇州大學基礎醫學與生物科學學院特聘教授,博士生導師李玉梅博士說,「在生物醫學領域,我們應用最多的就是高通量測序數據。」

有別於第一代測序技術,高通量測序技術是第二代測序技術,一個最顯著的變化就是速度很快,過去要花費十年的測序時間,高通量測序技術只需要不到一天就可以完成,而且價格也非常低。

所以,高通量測序技術是對傳統一代測序的一次革命性改變,可以一次對幾十萬到幾百萬條DNA分子進行序列測定,因此也被稱為下一代測序技術。「有了海量的數據,便可以分析人的遺傳突變、基因功能等,進一步分析基因突變的原因,突變與疾病之間的關係,就可以有針對性地去開發新的診斷方法和治療藥物。」李玉梅說。

高通量測序技術的快速發展,改變了人類研究生命藍圖的方式,同時也帶來了爆炸式增長的測序數據,目前數據存儲和傳輸都是亟需解決的問題。

02

直面生物醫學的數據驅動

隨著技術的成熟和成本的下降,生物數據通量急劇提升,這必然會帶來諸多挑戰。

海量、多模態生物醫學數據,讓存儲基礎設施迎來「高考」 - 天天要聞

以高通量測序為例,通過測序技術可以解析生物DNA序列特徵,包括遺傳變異檢測、序列圖譜構建等。尤其在人類健康研究中,需要了解基因的結構,功能,相互作用以及與各種人類疾病之間的關係,尋求各種治療和預防方法,包括藥物治療、基於生物大分子結構及小分子結構的藥物設計等。

第一個挑戰就是數據量巨大。以基因組測序為例,從最初的人類基因組,擴展到其他動物、植物、遠古生物、細菌、病毒的基因組,且目前已經涉及到腫瘤、遺傳病等疾病的檢測。因此,產生的數據種類和數據量是異常龐大的,通常以PB為單位保存。這就要求在系統中必須配置海量存儲,以滿足測序數據的存放。

第二個挑戰是存儲的穩定性。李玉梅說,「我們對存儲的基本要求,就是要穩定,盡量不在存儲和運行的過程中出現任何問題。」

其實,這個簡單的邏輯,在測序領域,要真正做到,卻是「堪比登天」。

此前,清華大學構建了一個RUSH系統,用於小鼠大腦的分析。這個實驗環境中,有28個1200萬像素的攝像頭,不間斷地高速拍攝小鼠腦圖。要求是每秒鐘拍攝30幀,並且要連續拍攝72個小時,且任何一幀的數據都不能丟。

浪潮信息存儲產品線分散式存儲總經理姜樂果說,「當時在跟清華大學的老師溝通時,他們起初認為國內的設備,很難達到這樣的一個效果。浪潮就在工廠里,按照清華大學的要求,搭建了一個1:1還原的鏡像環境,持續跑了三個月,做到了數據完全不丟失,最終得到了清華大學的認可。」

第三個挑戰是數據的處理效率。一個人的基因組大概是3個GB,包含了30億個鹼基。在全基因測序過程中,為了保證基因數據的完整性,需要平行測序30次,當最終測序完成後,全基因組數據將達到100GB左右,所以對數據分析的效率提出了更高要求。

03

解鈴還須繫鈴人

實際上,基因組測序場景本身,就是一次對全方位存儲能力的「檢驗」過程。

第一,由於測序的整個過程不允許被中斷,這就要求支撐測序應用的存儲系統,具備極致的穩定性和可靠性;

第二,測序數據分析工作中,對存儲系統的性能提出很高要求;

第三,在數據歸檔階段,需要將海量基因數據長期、完整、安全的保存起來,存儲系統的採購成本也是一個很大的挑戰。

李玉梅說,「生物醫學研究,背後是很大的數據量,因此我們對計算的需求就變高。同時隨著測序的價格降低,數據越測越多,對存儲的成本控制能力也提出了要求。」

海量、多模態生物醫學數據,讓存儲基礎設施迎來「高考」 - 天天要聞

解鈴還須繫鈴人,解決生物醫學數據驅動的關鍵,還在於存儲設備本身。

浪潮新一代分散式存儲平台AS13000G7就是一個很不錯的選項。

在總體架構設計上,其支持五合一架構的融合存儲,購買一套存儲,即可享有塊、文件、對象、大數據、視頻五種服務。對於基因測序場景不同處理階段,數據格式轉換和數據拷貝會降低整個數據處理流程效率的問題,給出一個很好的答案。

在高性能方面,基於Intel至強四代可擴展處理器,支持PCIe 5.0高速匯流排、DDR5高速緩存,搭載自研NVMe SSD,通過盤控協同實現了端到端聯合調優。相較上一代產品,分散式存儲AS13000G7性能整體提升40%。

在成本優化上,AS13000G7的單一集群最大擴展至10240節點,單一文件系統支持千億文件,通過智能演算法,存儲空間利用率達到94%以上,高利用率其實等於幫助用戶節省了成本。

海量的生物醫學數據,不斷對存儲系統提出新的挑戰,同時也在加速存儲技術的革新。從基因組測序到探索生命健康的密碼,生命不息,創新不止。

財經分類資訊推薦

偷看「成人網站」,以為別人不知道?若手機出現這4種徵兆,要注意了 - 天天要聞

偷看「成人網站」,以為別人不知道?若手機出現這4種徵兆,要注意了

在當今數字化時代,互聯網已成為我們生活中不可或缺的一部分,它為我們提供了無盡的知識、娛樂與便利。然而,隨著網路的普及,一些不良信息也隨之泛濫,其中「成人網站」便是頗具爭議的存在。許多人在好奇心或衝動之下,可能會偷偷訪問這類網站,自以為無人知曉。但事實上,任何網
「AI孫悟空」對話全球!訊飛星火AI大模型展項亮相大阪世博會中國館 - 天天要聞

「AI孫悟空」對話全球!訊飛星火AI大模型展項亮相大阪世博會中國館

4月13日,主題為「構想煥發生機的未來社會」的日本大阪·關西世博會(以下簡稱「大阪世博會」)開幕。大阪世博會中國館以「共同構建人與自然生命共同體——綠色發展的未來社會」為主題,攜「嫦娥五號」月壤樣本、「蛟龍」號體驗艙等頂尖科技成果亮相,並通過大量互動裝置和數字
如何通過戰略管理提升企業的核心競爭力和市場份額? - 天天要聞

如何通過戰略管理提升企業的核心競爭力和市場份額?

在當今風雲變幻的商業世界中,企業猶如逆水行舟,不進則退。戰略管理作為企業發展的核心驅動力,猶如指南針般為企業指明前行的方向,其重要性不言而喻。從本質上講,戰略管理是企業為實現長期目標,通過分析外部環境、評估內部資源和能力,制定、實施並評估跨職能決策的藝術和科學
讓性能隨行,創意無界!磐鐳鐳凌Link X-2顯卡塢上市 - 天天要聞

讓性能隨行,創意無界!磐鐳鐳凌Link X-2顯卡塢上市

隨著Thunderbolt介面和OCuLink介面的普及,市場上的顯卡擴展塢也逐漸豐富起來,不過基本很少會有廠商選擇年年更新,但熟悉磐鐳的老粉應該都知道,磐鐳的顯卡擴展塢業務已經做很多年了,除了開放式的鐳凌Link S系列,還有機箱式的鐳凌Link X系列,現
除菌率99.9999%!廚房好搭子容聲冰箱將上新,主打「橫掃千菌」 - 天天要聞

除菌率99.9999%!廚房好搭子容聲冰箱將上新,主打「橫掃千菌」

我們品嘗家中存儲的美味時,隔夜海鮮中將滋生沙門氏菌、未密封乳製品中將滋生李斯特菌等等……這些看不見的細菌病毒,正在將本該存儲幸福的冰箱,變成潛藏在日常生活中的健康隱患。別慌,你的廚房好搭子容聲冰箱又將上新了!4月13日,容聲將攜506雙凈Max冰箱主打「凈味除
售後維修服務為何成為家電業最尷尬的環節? - 天天要聞

售後維修服務為何成為家電業最尷尬的環節?

家電售後服務的問題一直存在,不管是不是3.15都應該被受到重視,特別是時代的變遷,科學技術的進步,家電行業的演變,使得現在的家電售後服務與以往有了顯著不同,隨時跟蹤研究才具有現實意義。
GMV破千億元、用戶超1億,商家盯上了淘寶這一新藍海 - 天天要聞

GMV破千億元、用戶超1億,商家盯上了淘寶這一新藍海

在今年38大促期間,一大批消費者在淘寶搶購海底撈的代金券,為海底撈提前「囤」了一波消費者。不止美食、麗人服務類代金券,更有以京東洗衣為代表的洗護服務,以遊戲為代表的虛擬消費,以優酷、愛奇藝為代表的會員充值服務等。