海量、多模态生物医学数据,让存储基础设施迎来“高考”

2023年06月27日18:24:07 财经 7411

生老病死是无法改变的自然规律,但人类一直没有停止过对疾病的抗争,这不是对死亡的恐惧,而是对生命的敬畏。

现代医学的发展史,就是一部科学的发展史,两者总是相辅相成。医学的发展让人类的寿命大大提高,让更多科技成果得以涌现,同样,科学的发展也赋予了医学更精准有效的治疗手段。

而随着人类文明进入到信息化时代,生物医学作为现代医学的分支和新兴的跨学科领域,也迎来快速的发展。随着生物医学大数据的增长,生物医学的发展也进入了崭新的阶段。苏州大学的生物医学研究,正通过高通量测序技术和AI技术,不断挖掘数据的价值,探索生命的奥秘。

01

高通量测序:下一代测序技术

“基因”始终带着神秘色彩,它是DNA上的特定部分,而DNA是支持着生命的基本构造和性能,储存着生命的种族、血型、生长、疾病等信息的生命密码,人类大约有2.5 万个基因来实现生命功能。

海量、多模态生物医学数据,让存储基础设施迎来“高考” - 天天要闻

基因组学通过对生物体所有DNA和基因的研究,在改变着人类的未来,针对遗传出生缺陷的产前检测,肿瘤基因检测,病毒和细菌的基因研究等,通过基因组测序都能找出“元凶”。而这门学科的关键,是其背后的海量数据。作为一项天然数据密集型业务,基因组测序可以基于更多的样本数据,快速研发新药或提供精准的诊疗服务。

但是最初的基因组测序技术的效率却并不高,人类第一次完整基因组测序耗费了13年之久,且成本巨大。

苏州大学基础医学与生物科学学院特聘教授,博士生导师李玉梅博士说,“在生物医学领域,我们应用最多的就是高通量测序数据。”

有别于第一代测序技术,高通量测序技术是第二代测序技术,一个最显著的变化就是速度很快,过去要花费十年的测序时间,高通量测序技术只需要不到一天就可以完成,而且价格也非常低。

所以,高通量测序技术是对传统一代测序的一次革命性改变,可以一次对几十万到几百万条DNA分子进行序列测定,因此也被称为下一代测序技术。“有了海量的数据,便可以分析人的遗传突变、基因功能等,进一步分析基因突变的原因,突变与疾病之间的关系,就可以有针对性地去开发新的诊断方法和治疗药物。”李玉梅说。

高通量测序技术的快速发展,改变了人类研究生命蓝图的方式,同时也带来了爆炸式增长的测序数据,目前数据存储和传输都是亟需解决的问题。

02

直面生物医学的数据驱动

随着技术的成熟和成本的下降,生物数据通量急剧提升,这必然会带来诸多挑战。

海量、多模态生物医学数据,让存储基础设施迎来“高考” - 天天要闻

以高通量测序为例,通过测序技术可以解析生物DNA序列特征,包括遗传变异检测、序列图谱构建等。尤其在人类健康研究中,需要了解基因的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗、基于生物大分子结构及小分子结构的药物设计等。

第一个挑战就是数据量巨大。以基因组测序为例,从最初的人类基因组,扩展到其他动物、植物、远古生物、细菌、病毒的基因组,且目前已经涉及到肿瘤、遗传病等疾病的检测。因此,产生的数据种类和数据量是异常庞大的,通常以PB为单位保存。这就要求在系统中必须配置海量存储,以满足测序数据的存放。

第二个挑战是存储的稳定性。李玉梅说,“我们对存储的基本要求,就是要稳定,尽量不在存储和运行的过程中出现任何问题。”

其实,这个简单的逻辑,在测序领域,要真正做到,却是“堪比登天”。

此前,清华大学构建了一个RUSH系统,用于小鼠大脑的分析。这个实验环境中,有28个1200万像素的摄像头,不间断地高速拍摄小鼠脑图。要求是每秒钟拍摄30帧,并且要连续拍摄72个小时,且任何一帧的数据都不能丢。

浪潮信息存储产品线分布式存储总经理姜乐果说,“当时在跟清华大学的老师沟通时,他们起初认为国内的设备,很难达到这样的一个效果。浪潮就在工厂里,按照清华大学的要求,搭建了一个1:1还原的镜像环境,持续跑了三个月,做到了数据完全不丢失,最终得到了清华大学的认可。”

第三个挑战是数据的处理效率。一个人的基因组大概是3个GB,包含了30亿个碱基。在全基因测序过程中,为了保证基因数据的完整性,需要平行测序30次,当最终测序完成后,全基因组数据将达到100GB左右,所以对数据分析的效率提出了更高要求。

03

解铃还须系铃人

实际上,基因组测序场景本身,就是一次对全方位存储能力的“检验”过程。

第一,由于测序的整个过程不允许被中断,这就要求支撑测序应用的存储系统,具备极致的稳定性和可靠性;

第二,测序数据分析工作中,对存储系统的性能提出很高要求;

第三,在数据归档阶段,需要将海量基因数据长期、完整、安全的保存起来,存储系统的采购成本也是一个很大的挑战。

李玉梅说,“生物医学研究,背后是很大的数据量,因此我们对计算的需求就变高。同时随着测序的价格降低,数据越测越多,对存储的成本控制能力也提出了要求。”

海量、多模态生物医学数据,让存储基础设施迎来“高考” - 天天要闻

解铃还须系铃人,解决生物医学数据驱动的关键,还在于存储设备本身。

浪潮新一代分布式存储平台AS13000G7就是一个很不错的选项。

在总体架构设计上,其支持五合一架构的融合存储,购买一套存储,即可享有块、文件、对象、大数据、视频五种服务。对于基因测序场景不同处理阶段,数据格式转换和数据拷贝会降低整个数据处理流程效率的问题,给出一个很好的答案。

在高性能方面,基于Intel至强四代可扩展处理器,支持PCIe 5.0高速总线、DDR5高速缓存,搭载自研NVMe SSD,通过盘控协同实现了端到端联合调优。相较上一代产品,分布式存储AS13000G7性能整体提升40%。

在成本优化上,AS13000G7的单一集群最大扩展至10240节点,单一文件系统支持千亿文件,通过智能算法,存储空间利用率达到94%以上,高利用率其实等于帮助用户节省了成本。

海量的生物医学数据,不断对存储系统提出新的挑战,同时也在加速存储技术的革新。从基因组测序到探索生命健康的密码,生命不息,创新不止。

财经分类资讯推荐

4月30日人社部发布会召开,涉及到社保和养老金,具体有哪些内容 - 天天要闻

4月30日人社部发布会召开,涉及到社保和养老金,具体有哪些内容

人力资源和社会保障部,组织召开的第一季度例行新闻发布会。在新闻发布会当中带来了,关于社保和养老金方面的一些内容,那么我们具体来了解一下究竟有哪些内容,这些内容对于我们个人来说会产生一个什么样的影响呢?养老保险的参保人数不断提高根据人社部的例行新闻发布会当中指出,截止到2026年的第1季度末,养老保险的参...
中兴三星全球专利纠纷持续 知识产权保护需凝聚国际共识 - 天天要闻

中兴三星全球专利纠纷持续 知识产权保护需凝聚国际共识

近期,中兴通讯与三星电子围绕无线通信标准必要专利(SEP)许可的全球性纠纷迎来多项关键司法裁决。当地时间4月30日,德国慕尼黑第一地区法院就双方专利侵权纠纷作出当庭判决,中兴通讯在主诉与反诉案件中同时胜出,成功获得针对三星的德国禁令。而此前英国高等法院作出的一
巴菲特,最新发声!接班人,股东大会观点来了 - 天天要闻

巴菲特,最新发声!接班人,股东大会观点来了

【导读】伯克希尔·哈撒韦股东大会要点直击中国基金报记者 李智当地时间5月2日,伯克希尔·哈撒韦股东大会在美国奥马哈召开。本次大会由格雷格·阿贝尔接任CEO后首次独立主持,“股神”巴菲特则以董事会主席身份列席台下。在今年的大会上,阿贝尔探讨了AI战略、网络安全、能源转型、股票回购等诸多话题,宣告伯克希尔正式进...
早读丨广东多项交通数据创历史新高;张雪机车再夺冠军 - 天天要闻

早读丨广东多项交通数据创历史新高;张雪机车再夺冠军

◆“首展”添彩、国潮涌动,广东4A级及以上景区单日接待游客394.2万人次。详情--> “五一”假期“逛吃”指南:广交会客商与市民共享全城消费热力。详情--> ◆常规赛第六轮精彩纷呈,多场对决战至最后时刻。详情--> 粤超第二轮先赛五场:梅州反客为主大胜潮州,潮语电影《给阿嬷的情书》片花亮相汕头主场。详情--> 粤超、粤...
低价抢市场害苦科陆电子,连续5年亏损靠大股东“输血续命” - 天天要闻

低价抢市场害苦科陆电子,连续5年亏损靠大股东“输血续命”

图源:公司官网本报(chinatimes.net.cn)记者胡雅文 北京报道深圳市科陆电子科技股份有限公司(下称“科陆电子”,002121.SZ)迟迟未能实现盈利。近日,科陆电子交出了被美的集团收购后的第二份年报,营收63.1亿元创下历史新高,净利润却连续第5年亏损。截至2025年末,其资产负债率高达95.15%。进入2026年,一季度再亏0.4...