海量、多模态生物医学数据,让存储基础设施迎来“高考”

2023年06月27日18:24:07 财经 7411

生老病死是无法改变的自然规律,但人类一直没有停止过对疾病的抗争,这不是对死亡的恐惧,而是对生命的敬畏。

现代医学的发展史,就是一部科学的发展史,两者总是相辅相成。医学的发展让人类的寿命大大提高,让更多科技成果得以涌现,同样,科学的发展也赋予了医学更精准有效的治疗手段。

而随着人类文明进入到信息化时代,生物医学作为现代医学的分支和新兴的跨学科领域,也迎来快速的发展。随着生物医学大数据的增长,生物医学的发展也进入了崭新的阶段。苏州大学的生物医学研究,正通过高通量测序技术和AI技术,不断挖掘数据的价值,探索生命的奥秘。

01

高通量测序:下一代测序技术

“基因”始终带着神秘色彩,它是DNA上的特定部分,而DNA是支持着生命的基本构造和性能,储存着生命的种族、血型、生长、疾病等信息的生命密码,人类大约有2.5 万个基因来实现生命功能。

海量、多模态生物医学数据,让存储基础设施迎来“高考” - 天天要闻

基因组学通过对生物体所有DNA和基因的研究,在改变着人类的未来,针对遗传出生缺陷的产前检测,肿瘤基因检测,病毒和细菌的基因研究等,通过基因组测序都能找出“元凶”。而这门学科的关键,是其背后的海量数据。作为一项天然数据密集型业务,基因组测序可以基于更多的样本数据,快速研发新药或提供精准的诊疗服务。

但是最初的基因组测序技术的效率却并不高,人类第一次完整基因组测序耗费了13年之久,且成本巨大。

苏州大学基础医学与生物科学学院特聘教授,博士生导师李玉梅博士说,“在生物医学领域,我们应用最多的就是高通量测序数据。”

有别于第一代测序技术,高通量测序技术是第二代测序技术,一个最显著的变化就是速度很快,过去要花费十年的测序时间,高通量测序技术只需要不到一天就可以完成,而且价格也非常低。

所以,高通量测序技术是对传统一代测序的一次革命性改变,可以一次对几十万到几百万条DNA分子进行序列测定,因此也被称为下一代测序技术。“有了海量的数据,便可以分析人的遗传突变、基因功能等,进一步分析基因突变的原因,突变与疾病之间的关系,就可以有针对性地去开发新的诊断方法和治疗药物。”李玉梅说。

高通量测序技术的快速发展,改变了人类研究生命蓝图的方式,同时也带来了爆炸式增长的测序数据,目前数据存储和传输都是亟需解决的问题。

02

直面生物医学的数据驱动

随着技术的成熟和成本的下降,生物数据通量急剧提升,这必然会带来诸多挑战。

海量、多模态生物医学数据,让存储基础设施迎来“高考” - 天天要闻

以高通量测序为例,通过测序技术可以解析生物DNA序列特征,包括遗传变异检测、序列图谱构建等。尤其在人类健康研究中,需要了解基因的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗、基于生物大分子结构及小分子结构的药物设计等。

第一个挑战就是数据量巨大。以基因组测序为例,从最初的人类基因组,扩展到其他动物、植物、远古生物、细菌、病毒的基因组,且目前已经涉及到肿瘤、遗传病等疾病的检测。因此,产生的数据种类和数据量是异常庞大的,通常以PB为单位保存。这就要求在系统中必须配置海量存储,以满足测序数据的存放。

第二个挑战是存储的稳定性。李玉梅说,“我们对存储的基本要求,就是要稳定,尽量不在存储和运行的过程中出现任何问题。”

其实,这个简单的逻辑,在测序领域,要真正做到,却是“堪比登天”。

此前,清华大学构建了一个RUSH系统,用于小鼠大脑的分析。这个实验环境中,有28个1200万像素的摄像头,不间断地高速拍摄小鼠脑图。要求是每秒钟拍摄30帧,并且要连续拍摄72个小时,且任何一帧的数据都不能丢。

浪潮信息存储产品线分布式存储总经理姜乐果说,“当时在跟清华大学的老师沟通时,他们起初认为国内的设备,很难达到这样的一个效果。浪潮就在工厂里,按照清华大学的要求,搭建了一个1:1还原的镜像环境,持续跑了三个月,做到了数据完全不丢失,最终得到了清华大学的认可。”

第三个挑战是数据的处理效率。一个人的基因组大概是3个GB,包含了30亿个碱基。在全基因测序过程中,为了保证基因数据的完整性,需要平行测序30次,当最终测序完成后,全基因组数据将达到100GB左右,所以对数据分析的效率提出了更高要求。

03

解铃还须系铃人

实际上,基因组测序场景本身,就是一次对全方位存储能力的“检验”过程。

第一,由于测序的整个过程不允许被中断,这就要求支撑测序应用的存储系统,具备极致的稳定性和可靠性;

第二,测序数据分析工作中,对存储系统的性能提出很高要求;

第三,在数据归档阶段,需要将海量基因数据长期、完整、安全的保存起来,存储系统的采购成本也是一个很大的挑战。

李玉梅说,“生物医学研究,背后是很大的数据量,因此我们对计算的需求就变高。同时随着测序的价格降低,数据越测越多,对存储的成本控制能力也提出了要求。”

海量、多模态生物医学数据,让存储基础设施迎来“高考” - 天天要闻

解铃还须系铃人,解决生物医学数据驱动的关键,还在于存储设备本身。

浪潮新一代分布式存储平台AS13000G7就是一个很不错的选项。

在总体架构设计上,其支持五合一架构的融合存储,购买一套存储,即可享有块、文件、对象、大数据、视频五种服务。对于基因测序场景不同处理阶段,数据格式转换和数据拷贝会降低整个数据处理流程效率的问题,给出一个很好的答案。

在高性能方面,基于Intel至强四代可扩展处理器,支持PCIe 5.0高速总线、DDR5高速缓存,搭载自研NVMe SSD,通过盘控协同实现了端到端联合调优。相较上一代产品,分布式存储AS13000G7性能整体提升40%。

在成本优化上,AS13000G7的单一集群最大扩展至10240节点,单一文件系统支持千亿文件,通过智能算法,存储空间利用率达到94%以上,高利用率其实等于帮助用户节省了成本。

海量的生物医学数据,不断对存储系统提出新的挑战,同时也在加速存储技术的革新。从基因组测序到探索生命健康的密码,生命不息,创新不止。

财经分类资讯推荐

紫光展锐完成IPO辅导备案:估值或达700亿元! - 天天要闻

紫光展锐完成IPO辅导备案:估值或达700亿元!

6月28日,中国证监会网站发布公告显示,紫光展锐(上海)科技股份有限公司(以下简称“紫光展锐”)已于6月27日在上海证监局办理辅导备案,拟在科创板首次公开发行股票并上市。这也意味着紫光展锐有望成为国产智能手机芯片第一股。公开资料显示,紫光展锐成立于2013年8月26日,是我国集成电路设计业的领军企业,全面掌握2G...
周末打虎!东航原董事长刘绍勇被查 - 天天要闻

周末打虎!东航原董事长刘绍勇被查

6月28日,中央纪委国家监委网站发布消息,中国东方航空集团有限公司原党组书记、董事长刘绍勇涉嫌严重违纪违法,目前正接受中央纪委国家监委纪律审查和监察调查。刘绍勇(资料图)刘绍勇出生于1958年11月,毕业于中国民航飞行学院,一级飞行员,19
研设计 促合作 河北企业组团2025第二十届中博会上觅商机 - 天天要闻

研设计 促合作 河北企业组团2025第二十届中博会上觅商机

长城网·冀云客户端讯(河北经济日报记者 袁立朋)6月27日上午,第二十届中国国际中小企业博览会(以下简称“中博会”)在广州市开幕,河北展区亮相。与此同时,与会河北企业负责人在河北省工信厅组织下在广东考察交流,对接商机。参观广东工业设计城。
越博动力内斗双方均受处罚!证监会首对配合造假方同步追责,合计开出3310万元罚单 - 天天要闻

越博动力内斗双方均受处罚!证监会首对配合造假方同步追责,合计开出3310万元罚单

本报(chinatimes.net.cn)记者夏高琴 南京报道在上演控制权争夺“全武行”、董事会内斗、定期报告难产等一系列状况,导致公司终止上市近一年后,南京越博动力系统股份有限公司(下称“越博动力”)涉嫌信息披露违法违规一案有了结果,曾争夺控制权的双方代表人均在处罚名列。6月27日晚间,越博动力披露公司及相关责任人近...
中国稀土集团郑重声明! - 天天要闻

中国稀土集团郑重声明!

6月29日,针对近期有网民发布的中国稀土集团有限公司(以下简称“中国稀土集团”)旗下上市公司“中国稀土”(000831.
万商云集筑“金桥” 中小企业勇闯全球赛道 - 天天要闻

万商云集筑“金桥” 中小企业勇闯全球赛道

珠江潮涌,万商辐辏。在经济全球化的浪潮中,中小企业作为经济发展的生力军,正积极探寻拓展海外市场的全新机遇。第二十届中国国际中小企业博览会(以下简称“中博会”)正在广州召开,为中小企业搭建起了一座通往国际市场的“金色桥梁”。
杉杉股份创始人长子全部持股被强执,知名牛散魏巍斥资1亿元入局 - 天天要闻

杉杉股份创始人长子全部持股被强执,知名牛散魏巍斥资1亿元入局

红星资本局6月29日消息,杉杉股份(600884.SH)6月27日发布公告,浙江省宁波市中级人民法院拟对公司副董事长郑驹持有的公司181万股股票(占公司总股本的0.08%)进行司法强制执行。本次执行后,郑驹不再持有公司股份。郑驹为杉杉股份创始人郑永刚长子。郑永刚2023年猝然离世,未立遗嘱或明确股权分配,引发郑驹与遗孀周婷围...