生老病死是無法改變的自然規律,但人類一直沒有停止過對疾病的抗爭,這不是對死亡的恐懼,而是對生命的敬畏。
現代醫學的發展史,就是一部科學的發展史,兩者總是相輔相成。醫學的發展讓人類的壽命大大提高,讓更多科技成果得以湧現,同樣,科學的發展也賦予了醫學更精準有效的治療手段。
而隨著人類文明進入到信息化時代,生物醫學作為現代醫學的分支和新興的跨學科領域,也迎來快速的發展。隨著生物醫學大數據的增長,生物醫學的發展也進入了嶄新的階段。蘇州大學的生物醫學研究,正通過高通量測序技術和AI技術,不斷挖掘數據的價值,探索生命的奧秘。
01
高通量測序:下一代測序技術
「基因」始終帶著神秘色彩,它是DNA上的特定部分,而DNA是支持著生命的基本構造和性能,儲存著生命的種族、血型、生長、疾病等信息的生命密碼,人類大約有2.5 萬個基因來實現生命功能。

基因組學通過對生物體所有DNA和基因的研究,在改變著人類的未來,針對遺傳出生缺陷的產前檢測,腫瘤基因檢測,病毒和細菌的基因研究等,通過基因組測序都能找出「元兇」。而這門學科的關鍵,是其背後的海量數據。作為一項天然數據密集型業務,基因組測序可以基於更多的樣本數據,快速研發新葯或提供精準的診療服務。
但是最初的基因組測序技術的效率卻並不高,人類第一次完整基因組測序耗費了13年之久,且成本巨大。
蘇州大學基礎醫學與生物科學學院特聘教授,博士生導師李玉梅博士說,「在生物醫學領域,我們應用最多的就是高通量測序數據。」
有別於第一代測序技術,高通量測序技術是第二代測序技術,一個最顯著的變化就是速度很快,過去要花費十年的測序時間,高通量測序技術只需要不到一天就可以完成,而且價格也非常低。
所以,高通量測序技術是對傳統一代測序的一次革命性改變,可以一次對幾十萬到幾百萬條DNA分子進行序列測定,因此也被稱為下一代測序技術。「有了海量的數據,便可以分析人的遺傳突變、基因功能等,進一步分析基因突變的原因,突變與疾病之間的關係,就可以有針對性地去開發新的診斷方法和治療藥物。」李玉梅說。
高通量測序技術的快速發展,改變了人類研究生命藍圖的方式,同時也帶來了爆炸式增長的測序數據,目前數據存儲和傳輸都是亟需解決的問題。
02
直面生物醫學的數據驅動
隨著技術的成熟和成本的下降,生物數據通量急劇提升,這必然會帶來諸多挑戰。

以高通量測序為例,通過測序技術可以解析生物DNA序列特徵,包括遺傳變異檢測、序列圖譜構建等。尤其在人類健康研究中,需要了解基因的結構,功能,相互作用以及與各種人類疾病之間的關係,尋求各種治療和預防方法,包括藥物治療、基於生物大分子結構及小分子結構的藥物設計等。
第一個挑戰就是數據量巨大。以基因組測序為例,從最初的人類基因組,擴展到其他動物、植物、遠古生物、細菌、病毒的基因組,且目前已經涉及到腫瘤、遺傳病等疾病的檢測。因此,產生的數據種類和數據量是異常龐大的,通常以PB為單位保存。這就要求在系統中必須配置海量存儲,以滿足測序數據的存放。
第二個挑戰是存儲的穩定性。李玉梅說,「我們對存儲的基本要求,就是要穩定,盡量不在存儲和運行的過程中出現任何問題。」
其實,這個簡單的邏輯,在測序領域,要真正做到,卻是「堪比登天」。
此前,清華大學構建了一個RUSH系統,用於小鼠大腦的分析。這個實驗環境中,有28個1200萬像素的攝像頭,不間斷地高速拍攝小鼠腦圖。要求是每秒鐘拍攝30幀,並且要連續拍攝72個小時,且任何一幀的數據都不能丟。
浪潮信息存儲產品線分散式存儲總經理姜樂果說,「當時在跟清華大學的老師溝通時,他們起初認為國內的設備,很難達到這樣的一個效果。浪潮就在工廠里,按照清華大學的要求,搭建了一個1:1還原的鏡像環境,持續跑了三個月,做到了數據完全不丟失,最終得到了清華大學的認可。」
第三個挑戰是數據的處理效率。一個人的基因組大概是3個GB,包含了30億個鹼基。在全基因測序過程中,為了保證基因數據的完整性,需要平行測序30次,當最終測序完成後,全基因組數據將達到100GB左右,所以對數據分析的效率提出了更高要求。
03
解鈴還須繫鈴人
實際上,基因組測序場景本身,就是一次對全方位存儲能力的「檢驗」過程。
第一,由於測序的整個過程不允許被中斷,這就要求支撐測序應用的存儲系統,具備極致的穩定性和可靠性;
第二,測序數據分析工作中,對存儲系統的性能提出很高要求;
第三,在數據歸檔階段,需要將海量基因數據長期、完整、安全的保存起來,存儲系統的採購成本也是一個很大的挑戰。
李玉梅說,「生物醫學研究,背後是很大的數據量,因此我們對計算的需求就變高。同時隨著測序的價格降低,數據越測越多,對存儲的成本控制能力也提出了要求。」

解鈴還須繫鈴人,解決生物醫學數據驅動的關鍵,還在於存儲設備本身。
浪潮新一代分散式存儲平台AS13000G7就是一個很不錯的選項。
在總體架構設計上,其支持五合一架構的融合存儲,購買一套存儲,即可享有塊、文件、對象、大數據、視頻五種服務。對於基因測序場景不同處理階段,數據格式轉換和數據拷貝會降低整個數據處理流程效率的問題,給出一個很好的答案。
在高性能方面,基於Intel至強四代可擴展處理器,支持PCIe 5.0高速匯流排、DDR5高速緩存,搭載自研NVMe SSD,通過盤控協同實現了端到端聯合調優。相較上一代產品,分散式存儲AS13000G7性能整體提升40%。
在成本優化上,AS13000G7的單一集群最大擴展至10240節點,單一文件系統支持千億文件,通過智能演算法,存儲空間利用率達到94%以上,高利用率其實等於幫助用戶節省了成本。
海量的生物醫學數據,不斷對存儲系統提出新的挑戰,同時也在加速存儲技術的革新。從基因組測序到探索生命健康的密碼,生命不息,創新不止。