2022 年 7 月,《麻省理工科技评论》中国正式公布了 2022 年隐私计算科技创新人物入选者。
在此次入选者中,我们看到了秉持科研实用主义的研究学者,也看到了实现技术革新的应用型人物,还有实现产业鼎新局面的行业人士,他们求新远征,不断推进技术研究与行业应用崭新面貌。我们将陆续发出入选者的独家专访,走进他们的创新成果,分享他们对隐私计算的理解与经验。
隐私计算近几年发展迅速,IDC 数据显示,“2021 年中国隐私计算市场规模已突破 8.6 亿元,未来有望实现 110% 以上的市场增速。”它是一门多学科融合的技术,涉及密码学、系统安全、机器学习,具体的场景应用还涉及医疗、金融等细分领域。因此,该领域需要跨领域的“多面手”。
王爽在隐私计算领域已深耕十余年,得益于他在应用物理学、生物医学工程、电子与计算机工程的高交叉学科背景,使得他既懂隐私计算,又了解其在医疗领域的应用场景,也促进了他的一次次技术突破与创新。
2011 年,他开创性地提出了联邦学习框架并应用于医疗在线学习, 将隐私计算与医疗结合,完成底层框架和算法开发,该框架服务于多个国家级医疗健康网络,也是联邦学习系统构架层面的突破。该技术帮助打通了加州大学体系下五所医院的数据互联互通,实现跨多个医院“数据可用不可见”,助力多中心联合分析和研究。
之后基于联邦学习的概念,结合同态加密、多方安全计算、可信执行环境等不同技术,王爽带领团队实现了更大规模的落地应用,实现在带有隐私保护的前提下,跨多个机构,在 3000 万人样本下完成多中心的联合计算研究,以及跨国罕见病研究。
当时支持像美国、英国、新加坡等不同国家的多中心基因组学数据分析,以及横向纵向的联邦学习、结构化数据、非结构化数据、基因数据、影像学数据等不同的分析。
截至目前,王爽已发表 100 余篇国际学术著作,并获得数千万美金的自然科学基金资助。在学术领域深耕或许是王爽职业道路的选择之一,但他并没有就此停留。
2014 年,王爽联合其它专家创办了 iDASH 隐私保护计算大赛(包括同态加密、多方安全计算和可信执行环境等赛道),截至目前该大赛已举办到第九届。吸引了全球各高校、创业公司、大厂,对隐私计算的高度关注。与此同时,该大赛还促进了跨领域人才的培养。
王爽表示,“让人感到兴奋的是,每年在 iDASH 隐私保护计算大赛上,我们都能看到该技术在效率或性能方面的显著提升。随着隐私计算发展的日趋成熟,它能慢慢地支撑起更多实际的应用场景。”
图丨《麻省理工科技评论》中国 2022 年隐私计算科技创新人物入选者王爽
2018 年对于王爽来说颇具意义。彼时,他是加州大学圣地亚哥分校(UCSD)医学院生物医学信息系的教授,入选国家中组部“海外高层次青年人才”。
随着隐私计算的发展,王爽意识到,除了专注技术创新、跟进学术研究,还应扩大隐私计算在社会的影响力。“只有进行商业场景的大规模应用落地和普及,才能更好地推动隐私计算在更大层面上的影响力。”王爽说。
适逢中国数字经济高速发展,王爽决定回国创立锘崴科技,让隐私计算的商业化发展在祖国的市场“落地开花”。在他的带领下,团队在全球首次实现同时支持联邦学习、可信执行环境、同态加密和多方安全计算的跨多国罕见病关联分析,支持不同隐私保护技术的融合性解决方案。
目前,王爽担任四川大学华西医院特聘教授,同济大学附属医院客座教授。同时,他也是锘崴科技创始人、董事长兼 CTO。
政策、法律、市场多方面驱动下的百亿市场
近年来,隐私计算全面发展。这得益于政策、法律、市场的多方面驱动。据艾瑞咨询数据显示,“到 2025 年,中国隐私计算市场规模将达到 145.1 亿元。”
从政策层面上,2020 年,数据作为新型生产要素被写入国家方针政策中。值得注意的是,数据的使用权、所有权和管理权难以分离,如果将数据作为生产要素、实现数据源持续地创造价值,就需要一种技术手段让数据可按次、按量、按用途地实现价值。
隐私计算作为技术解决方案,能通过数据“可用不可见、可控可计量”的方式,充分体现数据的要素化价值。
从法律层面上,国际方面,欧盟在 2018 年开始实施《通用数据保护条例》(General Data Protection Regulation,简称 GDPR),美国也颁布了《2018 年加州消费者隐私法案》(The California Consumer Privacy Act of 2018,简称 CCPA)。而中国也紧随其后,在 2021 年底颁布了《数据安全法》和《个人信息保护法》。
这些法律条文明确规定了,由于数据保护不当或隐私泄露所对应的民事责任、刑事责任以及相关的赔偿责任。其中,GDPR 和《个人信息保护法》规定的赔偿责任分别是 4% 及 5% 的年收入。因此,法律层面存在的诸多合规风险,也催生了涉及数据交互场景下,对隐私计算的大量需求。
从市场层面上,当下正处于大数据、AI 时代,AI 技术的发展目前已不是单纯地比拼模型就可取胜,而在于谁可触达更多数据,这包括数据量和数据维度信息。因此,很大程度上,数据的可触达性决定着 AI 算法的能力。
随着大数据需求的激增,每个单中心的数据量及数据维度因其局限性已无法满足,进而引发出多中心合作的需求。在政策、法律、市场的多方面驱动和需求下,隐私计算可满足多中心在合规的情况下的联合分析,也顺应了技术发展的潮流。
深耕“隐私计算+医疗”,完成多个标杆性案例
近年来,锘崴科技逐渐成为“隐私计算+医疗”企业的典型代表。“通过安全联邦学习提供更安全的解决方案,不仅局限于联邦学习,我们还融合了可信执行环境、多方安全计算、同态加密等技术,进一步保护联邦学习交互的梯度信息安全和模型结果安全。”王爽说。
那么,锘崴科技的技术先进性有何“秘密武器”呢?一方面,该团队专注隐私计算的底层技术研究十余年,对不同的技术路线有着深刻的行业 Know-How。另一方面,锘崴科技与大部分隐私计算公司的不同在于,其在医疗场景做得相对较深。
王爽表示,“我们有一套多技术融合系统,可自动编排不同技术路线的底层的隐私计算平台和框架,这帮助我们更好地融合不同的技术,解决现实场景中对于不同性能、安全级别、精度等需求。”
那么,医疗场景和非医疗场景有怎样的区别呢?实际上,除了非医疗场景涵盖的结构化数据,还包括其独有的非结构化数据、基因组学数据、医学影像学数据等。二者的主要区别在于数据类型及其所需的数据处理方法,显然,医疗场景需要处理的类型更加复杂、并需要数百种不同的分析方法。
王爽指出:“在医疗场景对于多中心并发的要求相对较高,大多数非医疗场景下的数据源合作通常两到三方,而医疗场景做科研或新药研发时,可能需要十几家甚至上百家医院的联合参与。所以,这也要求底层平台需要支持大规模、上百方的并发联合计算。”
从精度层面角度,医疗场景涉及病人的生命安全,为避免医疗责任事故难以界定的问题,该场景下的隐私计算还要求做到不引入额外的计算误差,因而需要无损隐私计算的解决方案。
图丨王爽(来源:王爽)
最近几年,王爽带领团队完成了多个标杆性案例。例如,联合多家医疗机构完成了全球首例带有隐私保护的跨多国罕见病数据分析,支持不同隐私保护技术的融合性解决方案,支持横向和纵向的多模态医疗数据的多中心安全联邦学习等。
王爽表示,“带隐私保护的跨国多中心数据协作系统罕见病研究,往往受限于单中心数据量不足而无法进行,而生物医疗数据的跨中心流动还受到法律监管,对安全措施要求高。”
为解决该问题,王爽及团队依托锘崴信®隐私保护计算平台,为其开发了一套带有隐私保护的跨国多中心数据协作系统,用于分析儿童川崎病基因数据。利用该系统,可以对加密数据执行安全的分布式计算,解决了医疗数据跨境流动难的问题,保证所有数据共享符合各国数据流动法规监管要求。
据了解,在该过程中,不论是有意或无意,都不会泄露个人隐私数据及中间结果。“值得关注的是,该平台还不会引入显著的计算负荷过大的限制,使得安全的大规模跨国遗传数据分析在实践中的可行性大幅提高。”王爽说。
此外,该团队还进行了全国首个跨省多中心全基因组分析,并研发了基于多维度大数据的新发和突发传染病实时监测和早期预警系统等,使数据实现安全共享、互联互通,助力精准医疗、药物研发、分级诊疗、疫情防控等多个领域。
让数据“动起来”形成网络效应,将隐私计算打造为数字经济时代的技术和安全底座
对于锘崴科技的近期发展,王爽表示,一方面在技术上,锘崴科技以“隐私计算+”赋能不同行业的应用,提供底层的、核心的隐私计算平台。在技术上会进行持续的投入和创新,包括核心的技术人员、资金投入以及对外合作。“我们会非常注重产学研用的结合,不断地提升整个系统的安全性,系统的性能、精度、灵活性以及系统的整体竞争力。”
另一方面,该团队会在数据资源的构建上继续投入与加强合作。通过技术上的领先,使更多的节点拥有隐私计算的能力,然后把一个个节点组成数据网络。
此外,为帮助数据源进行数据价值转换,王爽与团队还将和数据使用方或数据应用的提供方构建更多开放应用以及生态,把数据源“用起来”,让数据“动起来”形成网络效应。
图丨王爽(来源:王爽)
在王爽看来,隐私计算平台可作为数字经济时代的技术和安全底座,其本质价值在于全面地释放数据的价值、帮助用户降本增效、提高数据的使用效率以及增强数据交互过程中的互信性。“隐私计算未来可能会作为基础设施,服务于各种需要进行数据交互的场景,类似于现在人们用 4G、5G 基站支撑起来的移动互联网。”
他表示,隐私计算未来会做成底层基础设施,它连接的是数据网,将数据提供方和数据需求方联系到一起,然后实现数据按次、按量、按价值收费,类似滴滴、Uber 的模式。
未来,隐私计算将实现更大规模的数据价值的释放,为数据合规的交互、数据价值的转换持续赋能。