海量、多模態生物醫學數據,讓存儲基礎設施迎來「高考」

2023年06月27日18:24:07 財經 7411

生老病死是無法改變的自然規律,但人類一直沒有停止過對疾病的抗爭,這不是對死亡的恐懼,而是對生命的敬畏。

現代醫學的發展史,就是一部科學的發展史,兩者總是相輔相成。醫學的發展讓人類的壽命大大提高,讓更多科技成果得以湧現,同樣,科學的發展也賦予了醫學更精準有效的治療手段。

而隨著人類文明進入到信息化時代,生物醫學作為現代醫學的分支和新興的跨學科領域,也迎來快速的發展。隨著生物醫學大數據的增長,生物醫學的發展也進入了嶄新的階段。蘇州大學的生物醫學研究,正通過高通量測序技術和AI技術,不斷挖掘數據的價值,探索生命的奧秘。

01

高通量測序:下一代測序技術

「基因」始終帶著神秘色彩,它是DNA上的特定部分,而DNA是支持著生命的基本構造和性能,儲存著生命的種族、血型、生長、疾病等信息的生命密碼,人類大約有2.5 萬個基因來實現生命功能。

海量、多模態生物醫學數據,讓存儲基礎設施迎來「高考」 - 天天要聞

基因組學通過對生物體所有DNA和基因的研究,在改變著人類的未來,針對遺傳出生缺陷的產前檢測,腫瘤基因檢測,病毒和細菌的基因研究等,通過基因組測序都能找出「元兇」。而這門學科的關鍵,是其背後的海量數據。作為一項天然數據密集型業務,基因組測序可以基於更多的樣本數據,快速研發新葯或提供精準的診療服務。

但是最初的基因組測序技術的效率卻並不高,人類第一次完整基因組測序耗費了13年之久,且成本巨大。

蘇州大學基礎醫學與生物科學學院特聘教授,博士生導師李玉梅博士說,「在生物醫學領域,我們應用最多的就是高通量測序數據。」

有別於第一代測序技術,高通量測序技術是第二代測序技術,一個最顯著的變化就是速度很快,過去要花費十年的測序時間,高通量測序技術只需要不到一天就可以完成,而且價格也非常低。

所以,高通量測序技術是對傳統一代測序的一次革命性改變,可以一次對幾十萬到幾百萬條DNA分子進行序列測定,因此也被稱為下一代測序技術。「有了海量的數據,便可以分析人的遺傳突變、基因功能等,進一步分析基因突變的原因,突變與疾病之間的關係,就可以有針對性地去開發新的診斷方法和治療藥物。」李玉梅說。

高通量測序技術的快速發展,改變了人類研究生命藍圖的方式,同時也帶來了爆炸式增長的測序數據,目前數據存儲和傳輸都是亟需解決的問題。

02

直面生物醫學的數據驅動

隨著技術的成熟和成本的下降,生物數據通量急劇提升,這必然會帶來諸多挑戰。

海量、多模態生物醫學數據,讓存儲基礎設施迎來「高考」 - 天天要聞

以高通量測序為例,通過測序技術可以解析生物DNA序列特徵,包括遺傳變異檢測、序列圖譜構建等。尤其在人類健康研究中,需要了解基因的結構,功能,相互作用以及與各種人類疾病之間的關係,尋求各種治療和預防方法,包括藥物治療、基於生物大分子結構及小分子結構的藥物設計等。

第一個挑戰就是數據量巨大。以基因組測序為例,從最初的人類基因組,擴展到其他動物、植物、遠古生物、細菌、病毒的基因組,且目前已經涉及到腫瘤、遺傳病等疾病的檢測。因此,產生的數據種類和數據量是異常龐大的,通常以PB為單位保存。這就要求在系統中必須配置海量存儲,以滿足測序數據的存放。

第二個挑戰是存儲的穩定性。李玉梅說,「我們對存儲的基本要求,就是要穩定,盡量不在存儲和運行的過程中出現任何問題。」

其實,這個簡單的邏輯,在測序領域,要真正做到,卻是「堪比登天」。

此前,清華大學構建了一個RUSH系統,用於小鼠大腦的分析。這個實驗環境中,有28個1200萬像素的攝像頭,不間斷地高速拍攝小鼠腦圖。要求是每秒鐘拍攝30幀,並且要連續拍攝72個小時,且任何一幀的數據都不能丟。

浪潮信息存儲產品線分散式存儲總經理姜樂果說,「當時在跟清華大學的老師溝通時,他們起初認為國內的設備,很難達到這樣的一個效果。浪潮就在工廠里,按照清華大學的要求,搭建了一個1:1還原的鏡像環境,持續跑了三個月,做到了數據完全不丟失,最終得到了清華大學的認可。」

第三個挑戰是數據的處理效率。一個人的基因組大概是3個GB,包含了30億個鹼基。在全基因測序過程中,為了保證基因數據的完整性,需要平行測序30次,當最終測序完成後,全基因組數據將達到100GB左右,所以對數據分析的效率提出了更高要求。

03

解鈴還須繫鈴人

實際上,基因組測序場景本身,就是一次對全方位存儲能力的「檢驗」過程。

第一,由於測序的整個過程不允許被中斷,這就要求支撐測序應用的存儲系統,具備極致的穩定性和可靠性;

第二,測序數據分析工作中,對存儲系統的性能提出很高要求;

第三,在數據歸檔階段,需要將海量基因數據長期、完整、安全的保存起來,存儲系統的採購成本也是一個很大的挑戰。

李玉梅說,「生物醫學研究,背後是很大的數據量,因此我們對計算的需求就變高。同時隨著測序的價格降低,數據越測越多,對存儲的成本控制能力也提出了要求。」

海量、多模態生物醫學數據,讓存儲基礎設施迎來「高考」 - 天天要聞

解鈴還須繫鈴人,解決生物醫學數據驅動的關鍵,還在於存儲設備本身。

浪潮新一代分散式存儲平台AS13000G7就是一個很不錯的選項。

在總體架構設計上,其支持五合一架構的融合存儲,購買一套存儲,即可享有塊、文件、對象、大數據、視頻五種服務。對於基因測序場景不同處理階段,數據格式轉換和數據拷貝會降低整個數據處理流程效率的問題,給出一個很好的答案。

在高性能方面,基於Intel至強四代可擴展處理器,支持PCIe 5.0高速匯流排、DDR5高速緩存,搭載自研NVMe SSD,通過盤控協同實現了端到端聯合調優。相較上一代產品,分散式存儲AS13000G7性能整體提升40%。

在成本優化上,AS13000G7的單一集群最大擴展至10240節點,單一文件系統支持千億文件,通過智能演算法,存儲空間利用率達到94%以上,高利用率其實等於幫助用戶節省了成本。

海量的生物醫學數據,不斷對存儲系統提出新的挑戰,同時也在加速存儲技術的革新。從基因組測序到探索生命健康的密碼,生命不息,創新不止。

財經分類資訊推薦

裝備建設需求有望釋放,軍工ETF(512660)大漲超3% - 天天要聞

裝備建設需求有望釋放,軍工ETF(512660)大漲超3%

每經編輯:彭水萍今日,軍工股延續強勢,軍工ETF(512660)大漲超3%,截至發稿時間,成交額超3.5億元持續擴大。值得關注的是,資金持續布局軍工板塊,軍工ETF(512660)今年來份額增長超40%,當前規模超150億元位居同類第一。
濟南能源集團長清電廠1號機組順利併網發電 全省能源結構優化再添強勁引擎 - 天天要聞

濟南能源集團長清電廠1號機組順利併網發電 全省能源結構優化再添強勁引擎

濟南廣電·天下泉城客戶端6月30日訊 6月30日,濟南能源集團所屬熱電集團傳來振奮人心的消息——長清電廠2×66萬千瓦先進燃煤機組供熱項目1號機組首次併網一次成功,這標誌著濟南市在構建安全高效、清潔低碳的現代新型能源體系征程上邁出了堅實一步。項目投運後,將為山東省迎峰度夏能源保供提供堅實支撐,對全面提升當地電...
為什麼大家都不買華為手機了?背後有5個原因,全都很現實 - 天天要聞

為什麼大家都不買華為手機了?背後有5個原因,全都很現實

一直以來,華為的手機都被稱之為「國貨之光」。這一方面,華為在手機行業發展的較早,名氣比較大。另一方面,華為手機始終堅持自主研發,從麒麟晶元到鴻蒙系統,都展現出該品牌的技術實力。於是,很多人都認為,華為是中國手機品牌中的傑出代表。買華為就是為了支持國貨、支持中國
振石股份IPO父子控股96.5%,70歲張毓強去年剛卸任中國巨石總經理 - 天天要聞

振石股份IPO父子控股96.5%,70歲張毓強去年剛卸任中國巨石總經理

瑞財經 王敏 6月25日,浙江振石新材料股份有限公司(以下簡稱「振石股份」)上交所主板IPO獲受理,保薦機構為中金公司,保薦代表人為蘇海靈、唐加威,會計師事務所為中匯,律師事務所為上海錦天城。招股書顯示,公司是一家主要從事清潔能源領域纖維增強材料研發、生產及銷售的國家級高新技術企業。本次IPO擬募資39.81億元。...
潘隆應任福建一上市公司總經理 - 天天要聞

潘隆應任福建一上市公司總經理

6月28日,福建金森公告,因工作調動原因,福建金森林業股份有限公司董事、總經理周文剛先生辭去公司董事、總經理及第六屆董事會專門委員會相關職務。公司董事會同意提名潘隆應先生、范凱先生為公司第六屆董事會非獨立董事候選人。
北交所迎來雙指數時代,數十家基金爭奪 - 天天要聞

北交所迎來雙指數時代,數十家基金爭奪

【導讀】北交所迎來雙指數時代,數十家基金公司遞交北證專精特新指數基金申請中國基金報記者 方麗 陸慧婧今日,北證專精特新指數正式發布,北交所迎來「雙指數時代」。面對全新的指數化投資機遇,基金公司摩拳擦掌。近期,數十家基金公司遞交了相關指數產品的申請,希望進入首批北證專精特新指數基金名單。按計劃,基金公司...
「80後」李飛,已任汕頭市委常委 - 天天要聞

「80後」李飛,已任汕頭市委常委

據「中建七局土木工程公司」消息,6月25日下午,中建七局助理總經理,土木工程公司黨委書記、董事長王勇一行拜會汕頭市委常委、濠江區委書記李飛,雙方就濠江區「百千萬工程」項目、沿江路項目推進和後續長期合作進行深入溝通。上述消息顯示,濠江區委書記