海量、多模态生物医学数据,让存储基础设施迎来“高考”

2023年06月27日18:24:07 财经 7411

生老病死是无法改变的自然规律,但人类一直没有停止过对疾病的抗争,这不是对死亡的恐惧,而是对生命的敬畏。

现代医学的发展史,就是一部科学的发展史,两者总是相辅相成。医学的发展让人类的寿命大大提高,让更多科技成果得以涌现,同样,科学的发展也赋予了医学更精准有效的治疗手段。

而随着人类文明进入到信息化时代,生物医学作为现代医学的分支和新兴的跨学科领域,也迎来快速的发展。随着生物医学大数据的增长,生物医学的发展也进入了崭新的阶段。苏州大学的生物医学研究,正通过高通量测序技术和AI技术,不断挖掘数据的价值,探索生命的奥秘。

01

高通量测序:下一代测序技术

“基因”始终带着神秘色彩,它是DNA上的特定部分,而DNA是支持着生命的基本构造和性能,储存着生命的种族、血型、生长、疾病等信息的生命密码,人类大约有2.5 万个基因来实现生命功能。

海量、多模态生物医学数据,让存储基础设施迎来“高考” - 天天要闻

基因组学通过对生物体所有DNA和基因的研究,在改变着人类的未来,针对遗传出生缺陷的产前检测,肿瘤基因检测,病毒和细菌的基因研究等,通过基因组测序都能找出“元凶”。而这门学科的关键,是其背后的海量数据。作为一项天然数据密集型业务,基因组测序可以基于更多的样本数据,快速研发新药或提供精准的诊疗服务。

但是最初的基因组测序技术的效率却并不高,人类第一次完整基因组测序耗费了13年之久,且成本巨大。

苏州大学基础医学与生物科学学院特聘教授,博士生导师李玉梅博士说,“在生物医学领域,我们应用最多的就是高通量测序数据。”

有别于第一代测序技术,高通量测序技术是第二代测序技术,一个最显著的变化就是速度很快,过去要花费十年的测序时间,高通量测序技术只需要不到一天就可以完成,而且价格也非常低。

所以,高通量测序技术是对传统一代测序的一次革命性改变,可以一次对几十万到几百万条DNA分子进行序列测定,因此也被称为下一代测序技术。“有了海量的数据,便可以分析人的遗传突变、基因功能等,进一步分析基因突变的原因,突变与疾病之间的关系,就可以有针对性地去开发新的诊断方法和治疗药物。”李玉梅说。

高通量测序技术的快速发展,改变了人类研究生命蓝图的方式,同时也带来了爆炸式增长的测序数据,目前数据存储和传输都是亟需解决的问题。

02

直面生物医学的数据驱动

随着技术的成熟和成本的下降,生物数据通量急剧提升,这必然会带来诸多挑战。

海量、多模态生物医学数据,让存储基础设施迎来“高考” - 天天要闻

以高通量测序为例,通过测序技术可以解析生物DNA序列特征,包括遗传变异检测、序列图谱构建等。尤其在人类健康研究中,需要了解基因的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗、基于生物大分子结构及小分子结构的药物设计等。

第一个挑战就是数据量巨大。以基因组测序为例,从最初的人类基因组,扩展到其他动物、植物、远古生物、细菌、病毒的基因组,且目前已经涉及到肿瘤、遗传病等疾病的检测。因此,产生的数据种类和数据量是异常庞大的,通常以PB为单位保存。这就要求在系统中必须配置海量存储,以满足测序数据的存放。

第二个挑战是存储的稳定性。李玉梅说,“我们对存储的基本要求,就是要稳定,尽量不在存储和运行的过程中出现任何问题。”

其实,这个简单的逻辑,在测序领域,要真正做到,却是“堪比登天”。

此前,清华大学构建了一个RUSH系统,用于小鼠大脑的分析。这个实验环境中,有28个1200万像素的摄像头,不间断地高速拍摄小鼠脑图。要求是每秒钟拍摄30帧,并且要连续拍摄72个小时,且任何一帧的数据都不能丢。

浪潮信息存储产品线分布式存储总经理姜乐果说,“当时在跟清华大学的老师沟通时,他们起初认为国内的设备,很难达到这样的一个效果。浪潮就在工厂里,按照清华大学的要求,搭建了一个1:1还原的镜像环境,持续跑了三个月,做到了数据完全不丢失,最终得到了清华大学的认可。”

第三个挑战是数据的处理效率。一个人的基因组大概是3个GB,包含了30亿个碱基。在全基因测序过程中,为了保证基因数据的完整性,需要平行测序30次,当最终测序完成后,全基因组数据将达到100GB左右,所以对数据分析的效率提出了更高要求。

03

解铃还须系铃人

实际上,基因组测序场景本身,就是一次对全方位存储能力的“检验”过程。

第一,由于测序的整个过程不允许被中断,这就要求支撑测序应用的存储系统,具备极致的稳定性和可靠性;

第二,测序数据分析工作中,对存储系统的性能提出很高要求;

第三,在数据归档阶段,需要将海量基因数据长期、完整、安全的保存起来,存储系统的采购成本也是一个很大的挑战。

李玉梅说,“生物医学研究,背后是很大的数据量,因此我们对计算的需求就变高。同时随着测序的价格降低,数据越测越多,对存储的成本控制能力也提出了要求。”

海量、多模态生物医学数据,让存储基础设施迎来“高考” - 天天要闻

解铃还须系铃人,解决生物医学数据驱动的关键,还在于存储设备本身。

浪潮新一代分布式存储平台AS13000G7就是一个很不错的选项。

在总体架构设计上,其支持五合一架构的融合存储,购买一套存储,即可享有块、文件、对象、大数据、视频五种服务。对于基因测序场景不同处理阶段,数据格式转换和数据拷贝会降低整个数据处理流程效率的问题,给出一个很好的答案。

在高性能方面,基于Intel至强四代可扩展处理器,支持PCIe 5.0高速总线、DDR5高速缓存,搭载自研NVMe SSD,通过盘控协同实现了端到端联合调优。相较上一代产品,分布式存储AS13000G7性能整体提升40%。

在成本优化上,AS13000G7的单一集群最大扩展至10240节点,单一文件系统支持千亿文件,通过智能算法,存储空间利用率达到94%以上,高利用率其实等于帮助用户节省了成本。

海量的生物医学数据,不断对存储系统提出新的挑战,同时也在加速存储技术的革新。从基因组测序到探索生命健康的密码,生命不息,创新不止。

财经分类资讯推荐

开放合作结硕果 绿色发展谱新篇 - 天天要闻

开放合作结硕果 绿色发展谱新篇

北京展馆的景泰蓝工艺品受欢迎。西海新闻记者 邓建青 摄西海新闻记者 范程程6月29日,为期5天的第26届中国·青海绿色发展投资贸易洽谈会(以下简称“青洽会”)在青海国际会展中心新展馆圆满闭幕。
湖州市市长连坤明会见鹏飞集团副总裁郑梓豪一行 - 天天要闻

湖州市市长连坤明会见鹏飞集团副总裁郑梓豪一行

6月27日,湖州市委副书记、市长连坤明会见了鹏飞集团副总裁郑梓豪一行,湖州市委常委、常务副市长王宗明参加会见。 会谈中,郑梓豪介绍了鹏飞集团在打造“制氢、储氢、运氢、加氢、用氢、氢能装备制造及核心零部件制造”氢能全产业链的核心战略布局与落地
资本的本质,是无视一切,无限制地繁衍自身 - 天天要闻

资本的本质,是无视一切,无限制地繁衍自身

与权力的属性相似或相同,资本也有着无限制地繁衍自身的根本属性。或者我们可以把权力称之为政治权力,而资本称之为经济权力,这样两者就统一起来,而为什么人类社会会出现这两种事物呢?
最新发布的799元3.5寸超小屏手机,这外观好骚! - 天天要闻

最新发布的799元3.5寸超小屏手机,这外观好骚!

要说手机圈里的遗老遗少,那么LCD屏党和小屏手机党绝对是存在感最强的两个人群了。而小智恰好又都符合,毕竟LCD屏的护眼和小屏手机的单手握持便携是目前主流手机都没有的特质。而目前市面上的LCD屏手机是越来越少,估计2025就是LCD绝种元年
哪吒汽车被南宁国资起诉 - 天天要闻

哪吒汽车被南宁国资起诉

DoNews6月29日消息,6月25日,人民法院公告网公布的一份起诉状副本及开庭传票显示,南宁产投汽车工业集团有限责任公司因买卖合同纠纷,起诉合众新能源汽车股份有限公司等8家哪吒汽车关联公司。因众联天下汽车销售服务有限公司、哪吒合智(上海)汽车销售服务有限公司、哪吒汽车香港投资有限公司3家公司“下落不明”,法院以...
周末利好,下周机会在哪里? - 天天要闻

周末利好,下周机会在哪里?

大家好,我是沪麒麟,请动动您发财的小手指,点击右上方“关注”,不错过最新股市干货内容,点关注不迷路!本周A股指数5个交易日走出3连阳加2个阴线调整,但是周线还是收取一根放量阳线,并且沪指创出年内新高,深成指和创业板指也突破且站上了半年线关键
真正“高大上”的是责任和使命|亚投行十年 - 天天要闻

真正“高大上”的是责任和使命|亚投行十年

2015-2025,十年间,由中国倡议发起的新型多边开发银行——亚洲基础设施投资银行(AIIB)从57个创始成员发展至110个成员,覆盖全球81%的人口和65%的GDP。这颗精心播下的种子,如今已经生根发芽、开花结果。