華為天才少年透露研究課題！背後存儲團隊發兩大新品，面向大模型

2023年07月19日15:02:12 科技 1397

明敏發自凹非寺
量子位 | 公眾號 QbitAI

招最優秀的人才，打最硬的仗，出手即打破傳統。

這就是華為最新揭秘的大模型領域最新動作，劍指AI存儲，一口氣發佈兩產品：

OceanStor A310深度學習數據湖存儲與FusionCube A3000訓/推超融合一體機，性能密度刷新業界紀錄。

它們由華為數據存儲團隊推出，華為「天才少年」張霽正是其中一員。

2020年，博士畢業於華中科技大學的張霽，以「天才少年」身份入職華為、加入數據存儲產品線。如今是華為蘇黎世研究所數據存儲首席科學家。

在發佈會上，他還進一步揭開華為天才少年的神秘面紗，透露了自己正在推進的工作：

圍繞以數據為中心的未來存儲架構關鍵技術，包括向量存儲、數據方艙、近存計算、新應用場景下的數據存儲新格式、硬件加速等。

顯然，不只是大模型本身，在大模型相關的數據、存儲等領域，華為也早已開始積極布局，啟用最頂尖人才。

而面對大模型時代的數據存儲問題，華為作為存儲市場頭部廠商，究竟如何看待？

從最新發佈的兩款產品中，就能窺見答案。

面向大模型的存儲應該長啥樣？

此次發佈的新品有兩款，分別是：

OceanStor A310深度學習數據湖存儲
FusionCube A3000訓/推超融合一體機

雖然都是面向AI大模型，但是兩款新品對應的具體場景有所不同。

首先來看OceanStor A310，它面向基礎/行業大模型數據湖場景，可以貫穿AI全流程，同時也具備面向HPC（高性能計算）、大數據的同源數據分析能力。

它不光性能強大，而且支持混合負載、多協議無損融合互通、近存計算等，可極大程度上提升效率。

具體性能方面，OceanStor A310支持單框5U 96閃存盤，帶寬可達400GB/s。通俗理解，就是每秒鐘能傳200多部高清電影。

IOPS（每秒進行讀寫操作的次數）能達到1200萬。

由此OceanStor A310的性能密度也達到了目前全球最高：

每U帶寬性能達到80GB/s及每U的IOPS達到240萬，均達到業界標杆1.6倍；
每U容量密度為19盤位，達到業界標杆1.5倍。

而且OceanStor A310具備超強水平擴展能力，最大支持4096節點擴展。

可以實現對AI全流程海量數據管理（從數據歸集、預處理到模型訓練、推理應用）；實現數據0拷貝，全流程效率提升60%。

除此之外，OceanStor A310還通過存儲內置算力，減少無效數據傳輸。實現數據編織，也就是通過全局文件系統GFS來支持AI大模型分散在各處的原始數據，實現跨系統、跨地域、跨多雲的全局統一數據調度，簡化數據歸集流程。

基於近存計算，OceanStor A310還能通過內嵌算力實現數據預處理，避免數據在傳統的系統當中存儲、服務器、GPU之間的無效搬移，降低服務器等待時間，預處理效率提升至少30%。

另外，OceanStor A310能直接使用到當下的HPC中，如果之後企業需要將系統升級到面向大模型時，就不再需要數據搬遷。

再來看FusionCube A3000訓/推超融合一體機。

相對而言，它面向的場景是行業大模型訓練、推理一體化，主打降低企業使用AI大模型的門檻。

它主要針對百億級模型的應用，當然也可以水平擴展後支持更大規模模型。

內置的存儲節點是華為的OceanStor A300高性能存儲節點。它雙控支持180萬IOPS、50GB/s帶寬。

結合訓/推節點、交換設備、AI平台軟件與管理運維軟件一起，FusionCube A3000可以實現一站式交付、開箱即用。2個小時內可完成部署、5秒故障檢測、5分鐘故障恢復。

在實現邊緣部署多場景的訓練/推理應用業務的同時，它也能定期對模型進行調優。

通過高性能容器實現多個模型訓練推理任務共享GPU，FusionCube A3000將資源利用率從40%提升至70%以上，能夠很好支持多應用融合調度和管理、不同大小模型融合調度。

商業模式方面，FusionCube A3000有兩種選擇。

其一是基於華為自研的OceanStor A300高性能存儲節點、網絡、昇騰計算與管理運維軟件，即華為昇騰一站式方案；另外也支持第三方一站式方案，可以集成第三方的GPU服務器、網絡節點以及AI的平台軟件。

以上就是華為最新面向AI存儲發佈的新品。

此外在模型層，他們還聯合了訊飛星火、ChatGLM、紫東·太初等大模型夥伴共建生態。

但華為的雄心不止於此，在發佈會現場，華為數據存儲產品線總裁周躍峰特意和華為天才少年張霽，聊了聊華為存儲未來的事。

據張霽介紹，為了應對當下大模型提出的數據歸集新挑戰，他及所在團隊正在研究一種名為「數據方艙」的技術。

這種技術實現了讓數據和它的相關憑證、隱私、權限等信息一起流轉，當數據達到數據歸集地後，進入方艙執行和保護，從而保證數據的安全。

周躍峰博士透露，這一技術目前正在和中信銀行、雲上貴州等客戶做聯合的技術創新和實踐。

此外，為了應對AI大模型快速接入數據的需求，張霽等也在基於「萬物皆可向量」的理念，研究向量存儲技術。

他表示目前這種技術還處於早期萌芽階段，但是發展迅速，華為已做了非常前沿的布局。比如他們聯合華為海思硬件團隊一起，在近存計算方面做了很多攻關，利用軟硬協同的方式加速向量檢索。同時華為也在和蘇黎世聯邦理工大學等頂尖高校合作。

目前，張霽與其團隊正在瑞士蘇黎世研究所與蘇黎世聯邦理工大學Onur Mutlu教授等頂尖科學家們開展研究與合作。

Onur Mutlu教授曾帶領團隊榮獲2022年奧林帕斯獎，這一獎項頒給全球在數據存儲領域取得突破性貢獻的科研工作者。

正如張霽所說，他們的目標是希望在以數據為中心的體系結構變革背景下，利用算法和架構協同的方式，釋放數據的真正價值，卸載部分GPU、CPU的算力，節省無效數據搬移產生的能耗，從而最終推動數據新範式的快速發展。

所以，為什麼是以數據為中心？華為存儲看到了哪些行業趨勢？以及在大模型趨勢下，華為為何如此重視存儲問題？

存儲：大模型生態的重要一環

在大模型時代下，有這樣一句話廣為流傳：

數據以及數據質量的高度，決定着人工智能智力的高度。

的確，大模型所謂的「大」，核心體現就在數據方面。

當下企業開發及實施大模型面對的幾大挑戰也都與數據有關：

數據準備時間長
訓練集加載效率低
訓練易中斷
企業實施門檻高

首先在數據準備階段，往往需要從跨地域的多個數據源拷貝PB級原始數據。原始數據經常是多種格式、協議，導致這一流程一般十分複雜。

接着，爬取好的數據在訓練前需要進行清洗、去重、過濾、加工。

相較於傳統單模態小模型，多模態大模型所需的訓練數據量是其1000倍以上。一個百TB級大模型數據集，預處理時間將超過10天。

其次在訓練階段，大模型訓練參數、訓練數據集呈指數級增加，其中包含海量小文件。而當前小文件加載速度不足100MB/s，效率不高。

另外大模型頻繁的參數調優、網絡不穩定、服務器故障等多種因素，導致訓練過程平均約2天就會出現一次中斷，需要Checkpoints機制來確保訓練退回到某一點，而不是初始點。

但這種恢復往往也需要1天以上時間，直接導致大模型訓練周期拉長。而面對單次10TB的數據量和未來小時級的頻度要求，減少Checkpoints恢復時間也是一個需要解決的問題。

最後一方面挑戰來自大模型應用。

在應用門檻上，系統搭建難、資源調度等對於很多企業來說還是太難了，企業傳統的IT系統GPU資源利用率通常不到40%。

更何況目前趨勢還要求企業儘可能快速更新大模型知識數據，快速完成推理。

那麼該如何解決這些問題？

華為已經給出了一種答案，從存儲入手。

華為數據存儲產品線總裁周躍峰博士表示，數據中心三大件「計算、存儲和網絡」，密不可分、可以互補。

華為分佈式存儲領域副總裁韓振興更是給出了明確觀點：加強存力建設可以加速AI訓練。

得出這樣的結論，華為表示主要看到了技術、行業等多方面趨勢。

首先在技術方面，大模型時代下，馮·諾依曼架構難以滿足當下需求。

它要求數據在計算、訓練或推理過程中發生非常多搬移動作。在數據量非常龐大的情況下，這樣操作不合適。

周躍峰博士表示，比爾·蓋茨在很久以前說給一台電腦128k的內存，它能做所有事。

但是當下情況顯然不是如此，數據量還在不斷增加，存儲與計算的增配需求差異隨之擴大，這時存儲資源和計算資源就需要拆分成獨立模塊建設，以實現靈活擴展並提高資源利用率，因此計算架構需要發生改變。

這也就是近年比較火熱的「存算分離」概念，在存和算之間做出更好的劃分，這樣才能實現更高效的計算、匹配海量數據下的大架構創新。

大模型時代下數據量空前增加，如果構建充足的存力讓數據能快速在各個環節流轉，可以充分利用算力、提高訓練效率。比如華為在AI存儲新品中強調的近存計算，正是這樣來互補算力。

再來看行業方面。

海量數據預處理是當下面臨的一大挑戰。

周躍峰觀察到，有人提出用訓練的GPU資源去處理這部分任務，「但這樣會給GPU提出更高要求，更何況目前還面臨供應問題。」

目前國內的存算基礎設施建設中，算力中心建設相對完善，但在存力建設方面仍然短缺。這就導致在數據預處理等階段中，為了等待數據處理，算力閑置的情況，造成資源浪費。

所以當下需要去重視存力，以在行業內形成一個最佳的存算比。

此外，華為還觀察到對於一些中小企業、科研院所、大學對訓練AI大模型有着很大的需求，他們對存力設施搭建，還提出了更加簡易、靈活的要求。

由此也就不難理解，為什麼華為在大模型趨勢下會錨定存儲方向發力，而且率先推出OceanStor A310和FusionCube A3000。

而且對於AI大模型的存力需求，華為看到的時間也更加早。

據透露，兩款產品的籌備研發都是在2、3年前就已經啟動的，當時千億級參數大模型才剛剛問世不久。

並且除了推出自家新存儲產品外，華為格外強調了生態建設。

正所謂：獨行快，眾行遠。

華為表示，在提供AI存儲的過程中，堅持硬件及軟件生態的開放。

硬件方面，華為未來會全面支持業界主流CPU/GPU廠商設備，做好性能適配與調優，並提供不同形態硬件的統一管理能力，兼容用戶現有硬件生態。

軟件方面，廣泛與業界優秀軟件夥伴合作，提前完成方案適配調優；模型層支持業界主流的通用大模型軟件，同時支持面向具體應用場景的垂直行業模型入駐；平台服務層支持主流AI開放平台軟件和AI服務鏈軟件，包括昇思MindSpore、PyTorch等；IAAS層開放支持第三方容器軟件和開源K8S。

一言以蔽之，當下的最新動作，是華為存儲在大模型時代下掀開的第一頁。

所以，如今已經站在起跑線上的華為，究竟如何看待大模型時代下的存儲？

中國不重視存力，AI會被制約

大模型趨勢演進到當下，「百模大戰」、算力焦慮先後成為業內的熱議話題。

還有一大基石，則是數據，如今也已被逐漸推至台前。

周躍峰博士分享到，對於ChatGPT來說，英文數據訓練的效率要比中文高。

原因不在於中文不適合科學語言表達，而是數字化時代下，被記錄下來的中文資料遠遠少於英文資料。

所以周躍峰提出：

如果中國不重視存力，將會對未來我們挖掘人工智能潛力、發展人工智能產業，造成巨大制約。

如果更進一步解釋的話，他認為機器和人一樣，它需要有腦力，即算力；還要知道方法論，即算法。

回顧人類從猿猴發展到智慧人類的過程中，文字的產生讓人類文明飛速發展。

如果對應來看，機器的數據可以堪比人類發展史中的文字。

因為有了文字後，信息得以被記錄、交流和傳承，人類開始可以自我學習和進化。機器也是一樣的，如果世界沒有被數據記錄下來、讓機器去讀，它也只是一個冰冷的機器而已。

總之，大模型趨勢下，關於數據、計算、存儲都正在經歷一輪新變革。

高性能計算的「木桶效應」，使得用上了先進的芯片，並不代表具備先進算力，計算、存儲、網絡三個環節缺一不可。

由此也就不難理解，華為為什麼要在進軍大模型領域後，率先在存儲領域布局。

只有從基礎入手，才能走得更穩，走得更遠。

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們，第一時間獲知前沿科技動態

科技

諾基亞助力印尼電信巨頭實現綠色智能轉型 - 天天要聞

諾基亞助力印尼電信巨頭實現綠色智能轉型

近日，印尼領先的數字電信公司Indosat Ooredoo Hutchison部署了諾基亞能源效率解決方案，旨在降低其全國無線電接入網絡（RAN）的能源需求和二氧化碳排放。該方案是諾基亞自主網絡組合的一部分，利用人工智能和機器學習算法分析實時流量模式，在低網絡需求時段自動關閉閑置和未使用的無線電設備。諾基亞能源效率解決方案採用...

07月11日 7227

6月銷冠！國產車驕傲！MPV能打的只有嵐圖夢想家 - 天天要聞

6月銷冠！國產車驕傲！MPV能打的只有嵐圖夢想家

6月銷售數據陸續出爐，嵐圖夢想家成為新能源MPV焦點車型。最新數據顯示，嵐圖夢想家6月銷售7967台，正式問鼎新能源MPV銷量冠軍，成為高端MPV的標杆級產品。

07月11日 5095

1.52GB大更新！鴻蒙OS 5.1補齊核心功能，部分老機型徹底告別 - 天天要聞

1.52GB大更新！鴻蒙OS 5.1補齊核心功能，部分老機型徹底告別

最近你可能刷到不少人曬系統更新：鴻蒙5.1版本終於大面積推送了，不僅Mate 60、70系列第一時間吃上測試包，連nova 14、Pura X都在跟進。而最吸引眼球的，是那1.52GB的大包體——這可不是「例行更新」，而是真刀真槍的系統升級

07月11日 1547

引領健康新潮流，三星Galaxy Watch8系列讓健康生活大踏步 - 天天要聞

引領健康新潮流，三星Galaxy Watch8系列讓健康生活大踏步

【ZOL中關村在線原創新聞】要想實現健康的生活方式其實很簡單，保持規律的生活節奏和健康的飲食習慣，就能輕鬆達成目標。這也是智能手錶越來越盛行的原因之一。在科技手段的幫助下，管理健康生活將變得更加簡易方便。尤其是近日推出的三星Galaxy Watch8系列，還針對自律和健康管理推出多項創新功能，可量化不同行為對健康的...

07月11日 1362

比亞迪打響智駕責任革命：全球首推智駕兜底，百萬用戶吃下定心丸 - 天天要聞

比亞迪打響智駕責任革命：全球首推智駕兜底，百萬用戶吃下定心丸

當智能駕駛成為購車關鍵指標，責任歸屬模糊卻如懸頂之劍——事故風險往往由消費者承擔。當車企還在為L2++命名爭分奪秒時，比亞迪已在全球率先撕開智能泊車的"責任盲區"：直接承諾：在中國市場，所有搭載天神之眼系統的車輛，泊車事故責任全由比亞迪兜底！

07月11日 5414

理想i8月底來襲！720km純電續航+10分鐘充500km，家用首選？ - 天天要聞

理想i8月底來襲！720km純電續航+10分鐘充500km，家用首選？

7月9日，從理想汽車官方獲悉，旗下首款純電SUV——理想i8將於7月29日正式上市，新車定位中大型六座SUV，軸距3050mm，動力上將全系標配雙電機智能四驅，標配5C三元鋰電池，CLTC純電續航最高720km，同時全系標配激光雷達，預計售價35萬元左右。理想汽車CEO李想發文表示：近期有購買SUV、MPV意向的用戶，看完發佈會再做購買決...

07月11日 6206

中國衛星上半年預虧最高4120萬元：商業航天競爭承壓，擬加快業務轉型突圍 - 天天要聞

中國衛星上半年預虧最高4120萬元：商業航天競爭承壓，擬加快業務轉型突圍

每經記者：楊卉每經編輯：魏文藝7月10日晚間，中國衛星（SH600118，股價27.88元，市值329.68億元）公告稱，預計2025年半年度報告將出現虧損，與上年同期相比將由盈轉虧。至於虧損原因，中國衛星列舉了以下幾點：上半年公司可確認收入同比下降，相關產品交付增量是以毛利率較低的商業航天產品為主，以及幾家子公司的經營狀...

07月11日 3422

外賣平台消費券補貼加碼，成都餐飲行業迎來增量市場機遇丨新消費觀察 - 天天要聞

外賣平台消費券補貼加碼，成都餐飲行業迎來增量市場機遇丨新消費觀察

封面新聞記者歐陽宏宇 4個人日出近3000杯，一天賣光半年庫存，出單小票十幾米長……這幾天，淘寶閃購、美團、京東再次加碼新一輪消費券補貼。封面新聞記者近日在走訪成都本土餐飲商家時也發現，....

07月11日 2858

非營利研究機構 METR：資深程序員使用 AI 反而會拖慢開發速度 - 天天要聞

非營利研究機構 METR：資深程序員使用 AI 反而會拖慢開發速度

IT之家 7 月 10 日消息，據路透社今日報道，非營利機構 METR 的最新研究發現，和大家普遍認為的相反，經驗豐富的軟件開發者在使用最先進的 AI 工具輔助熟悉的代碼庫時，反而變得更慢，而不是更快。該機構對一批資深開發者進行了深入調查，他們用流行的 AI 編程助手 Cursor 來完成自己熟悉的開源項目任務。研究開始前，這些...

07月10日 9487

華為啟動全球教育醫療夥伴聯盟，倡議推動 AI 診療商業模式落地 - 天天要聞

華為啟動全球教育醫療夥伴聯盟，倡議推動 AI 診療商業模式落地

IT之家 7 月 10 日消息，在 2025 全球教育醫療合作夥伴中國周期間，華為今日成功舉辦教育醫療行業合作夥伴峰會。來自 40 個國家的 300 余位夥伴嘉賓參會，共話教育和醫療行業數智化轉型新未來。會上，華為啟動全球教育醫療夥伴聯盟（GEHPA）計劃，旨在增強行業夥伴的交流，互補優勢，實現合作共贏。▲ 華為全球教育夥伴聯盟...

07月10日 4296