海量、多模態生物醫學數據,讓存儲基礎設施迎來「高考」

2023年06月27日18:24:07 財經 7411

生老病死是無法改變的自然規律,但人類一直沒有停止過對疾病的抗爭,這不是對死亡的恐懼,而是對生命的敬畏。

現代醫學的發展史,就是一部科學的發展史,兩者總是相輔相成。醫學的發展讓人類的壽命大大提高,讓更多科技成果得以湧現,同樣,科學的發展也賦予了醫學更精準有效的治療手段。

而隨着人類文明進入到信息化時代,生物醫學作為現代醫學的分支和新興的跨學科領域,也迎來快速的發展。隨着生物醫學大數據的增長,生物醫學的發展也進入了嶄新的階段。蘇州大學的生物醫學研究,正通過高通量測序技術和AI技術,不斷挖掘數據的價值,探索生命的奧秘。

01

高通量測序:下一代測序技術

「基因」始終帶着神秘色彩,它是DNA上的特定部分,而DNA是支持着生命的基本構造和性能,儲存着生命的種族、血型、生長、疾病等信息的生命密碼,人類大約有2.5 萬個基因來實現生命功能。

海量、多模態生物醫學數據,讓存儲基礎設施迎來「高考」 - 天天要聞

基因組學通過對生物體所有DNA和基因的研究,在改變着人類的未來,針對遺傳出生缺陷的產前檢測,腫瘤基因檢測,病毒和細菌的基因研究等,通過基因組測序都能找出「元兇」。而這門學科的關鍵,是其背後的海量數據。作為一項天然數據密集型業務,基因組測序可以基於更多的樣本數據,快速研發新葯或提供精準的診療服務。

但是最初的基因組測序技術的效率卻並不高,人類第一次完整基因組測序耗費了13年之久,且成本巨大。

蘇州大學基礎醫學與生物科學學院特聘教授,博士生導師李玉梅博士說,「在生物醫學領域,我們應用最多的就是高通量測序數據。」

有別於第一代測序技術,高通量測序技術是第二代測序技術,一個最顯著的變化就是速度很快,過去要花費十年的測序時間,高通量測序技術只需要不到一天就可以完成,而且價格也非常低。

所以,高通量測序技術是對傳統一代測序的一次革命性改變,可以一次對幾十萬到幾百萬條DNA分子進行序列測定,因此也被稱為下一代測序技術。「有了海量的數據,便可以分析人的遺傳突變、基因功能等,進一步分析基因突變的原因,突變與疾病之間的關係,就可以有針對性地去開發新的診斷方法和治療藥物。」李玉梅說。

高通量測序技術的快速發展,改變了人類研究生命藍圖的方式,同時也帶來了爆炸式增長的測序數據,目前數據存儲和傳輸都是亟需解決的問題。

02

直面生物醫學的數據驅動

隨着技術的成熟和成本的下降,生物數據通量急劇提升,這必然會帶來諸多挑戰。

海量、多模態生物醫學數據,讓存儲基礎設施迎來「高考」 - 天天要聞

以高通量測序為例,通過測序技術可以解析生物DNA序列特徵,包括遺傳變異檢測、序列圖譜構建等。尤其在人類健康研究中,需要了解基因的結構,功能,相互作用以及與各種人類疾病之間的關係,尋求各種治療和預防方法,包括藥物治療、基於生物大分子結構及小分子結構的藥物設計等。

第一個挑戰就是數據量巨大。以基因組測序為例,從最初的人類基因組,擴展到其他動物、植物、遠古生物、細菌、病毒的基因組,且目前已經涉及到腫瘤、遺傳病等疾病的檢測。因此,產生的數據種類和數據量是異常龐大的,通常以PB為單位保存。這就要求在系統中必須配置海量存儲,以滿足測序數據的存放。

第二個挑戰是存儲的穩定性。李玉梅說,「我們對存儲的基本要求,就是要穩定,盡量不在存儲和運行的過程中出現任何問題。」

其實,這個簡單的邏輯,在測序領域,要真正做到,卻是「堪比登天」。

此前,清華大學構建了一個RUSH系統,用於小鼠大腦的分析。這個實驗環境中,有28個1200萬像素的攝像頭,不間斷地高速拍攝小鼠腦圖。要求是每秒鐘拍攝30幀,並且要連續拍攝72個小時,且任何一幀的數據都不能丟。

浪潮信息存儲產品線分佈式存儲總經理姜樂果說,「當時在跟清華大學的老師溝通時,他們起初認為國內的設備,很難達到這樣的一個效果。浪潮就在工廠里,按照清華大學的要求,搭建了一個1:1還原的鏡像環境,持續跑了三個月,做到了數據完全不丟失,最終得到了清華大學的認可。」

第三個挑戰是數據的處理效率。一個人的基因組大概是3個GB,包含了30億個鹼基。在全基因測序過程中,為了保證基因數據的完整性,需要平行測序30次,當最終測序完成後,全基因組數據將達到100GB左右,所以對數據分析的效率提出了更高要求。

03

解鈴還須繫鈴人

實際上,基因組測序場景本身,就是一次對全方位存儲能力的「檢驗」過程。

第一,由於測序的整個過程不允許被中斷,這就要求支撐測序應用的存儲系統,具備極致的穩定性和可靠性;

第二,測序數據分析工作中,對存儲系統的性能提出很高要求;

第三,在數據歸檔階段,需要將海量基因數據長期、完整、安全的保存起來,存儲系統的採購成本也是一個很大的挑戰。

李玉梅說,「生物醫學研究,背後是很大的數據量,因此我們對計算的需求就變高。同時隨着測序的價格降低,數據越測越多,對存儲的成本控制能力也提出了要求。」

海量、多模態生物醫學數據,讓存儲基礎設施迎來「高考」 - 天天要聞

解鈴還須繫鈴人,解決生物醫學數據驅動的關鍵,還在於存儲設備本身。

浪潮新一代分佈式存儲平台AS13000G7就是一個很不錯的選項。

在總體架構設計上,其支持五合一架構的融合存儲,購買一套存儲,即可享有塊、文件、對象、大數據、視頻五種服務。對於基因測序場景不同處理階段,數據格式轉換和數據拷貝會降低整個數據處理流程效率的問題,給出一個很好的答案。

在高性能方面,基於Intel至強四代可擴展處理器,支持PCIe 5.0高速總線、DDR5高速緩存,搭載自研NVMe SSD,通過盤控協同實現了端到端聯合調優。相較上一代產品,分佈式存儲AS13000G7性能整體提升40%。

在成本優化上,AS13000G7的單一集群最大擴展至10240節點,單一文件系統支持千億文件,通過智能算法,存儲空間利用率達到94%以上,高利用率其實等於幫助用戶節省了成本。

海量的生物醫學數據,不斷對存儲系統提出新的挑戰,同時也在加速存儲技術的革新。從基因組測序到探索生命健康的密碼,生命不息,創新不止。

財經分類資訊推薦

3477億美元!伯克希爾一季度現金儲備再創新高,擔憂關稅戰不確定性影響 - 天天要聞

3477億美元!伯克希爾一季度現金儲備再創新高,擔憂關稅戰不確定性影響

5月3日,2025年巴菲特股東大會召開前夕,伯克希爾·哈撒韋公司(下稱「伯克希爾」)例行發佈了2025年一季報。財報顯示,伯克希爾2025年第一季度營收為897.25億美元,上年同期營收為898.69億美元,小幅下降;凈利潤46.03億美元,同比減少64%,上年同期盈利127.02億美元;第一季度投資凈虧損50.38億美元,上年同期盈利14.8億...
假睫毛產業帶這樣「煥」新 - 天天要聞

假睫毛產業帶這樣「煥」新

解碼2025外貿經濟新形勢及行業新趨勢、TikTok助力睫都商家出海銷售、睫毛產業出海合規解決方案……4月16日—20日,多家電商平台陸續來到青島路演,幫助假睫毛產業帶的企業拓展國內外市場。位於青島平度假睫毛產業帶的商家發現,假睫毛行業加速
QFII大舉加倉 - 天天要聞

QFII大舉加倉

【導讀】2025年一季度末QFII持倉動向曝光 中國基金報記者 吳君 隨着2025年一季報的披露,QFII在A股市場的最新投資動向浮出水面。 Wind數據顯示,截至今年一季度末,共有692家上市公司的前十大流通股東名單中出現QFII的身影,共持有80.63億股,期末持有總市值達到1172.13億元,較去年末增長3.15%。 我們一起來看看,今年一季...
...困於算法「越跑越虧」!里程費跌破1元、抽成提高……平台與司機... - 天天要聞

...困於算法「越跑越虧」!里程費跌破1元、抽成提高……平台與司機...

「完成2000單獎勵0.01元」,近日某網約車平台這一讓人匪夷所思的「獎勵新規」,在網約車司機圈裡炸開了鍋。司機們紛紛吐槽,這是變相侮辱。這0.01元的「天價獎勵」,也打破了網約車上線十餘年的最低紀錄。日前,青島市公布2025年一季度青島市網約車行業運營動態,日均完成5單以下的車輛22264輛,佔比達36.73%,也揭示了當下...