這家杭州科技公司創始人,為何成為總理的「座上賓」?
分類:科技
瀏覽數:7237
1月20日下午,中共中央政治局常委、國務院總理李強主持召開專家、企業家和教科文衛體等領域代表座談會,聽取對《政府工作報告(徵求意見稿)》的意見建議。在此次座談會上,共有9人先後發言,就解決當前發展中的問題、做好今年政府工作提出了意見建議。他們分別是北京大學經濟學院院長張輝,浙江大學黨委書記任少波,中國工商銀行黨委副書記、行長劉珺,國產大模型企業深度求索(deepseek)創始人梁文鋒,遨博(北京)智能科技股份有限公司董事長魏洪興,中國機械工業集團有限公司副總經理、總工程師陳學東,國家圖書館古籍館館長陳紅彥,中國醫學科學院北京協和醫院副院長杜斌,國際級運動健將、中國體操運動員鄒敬園。其中,深度求索(deepseek)是來自杭州的一家科技公司。這家公司是什麼來頭,創始人梁文鋒為何能成為總理的「座上賓」?deepseek,全稱「杭州深度求索人工智慧基礎技術研究有限公司」,成立於2023年7月,由知名量化資管巨頭幻方量化創立。在矽谷,deepseek很早就被稱作「來自東方的神秘力量」,也是網上熱議的「杭州六小龍」之一。真正讓deepseek火出圈的是2024年12月26日,這家公司宣布上線並同步開源的 deepseek-v3模型,並公布了長達53頁的訓練和技術細節。它以1/11的算力、僅2000個gpu晶元訓練出性能超越gpt-4o的大模型。其總訓練成本只有557.6萬美元,而gpt-4o的約為1億美元,使用25000個gpu晶元。雙方的成本至少是10倍的差距。在性能上,deepseek-v3在數學、代碼能力和中文知識問答方面還超過了chatgpt-4o。國外獨立測評機構artificial analysis測試後,發出了「超越了迄今為止所有開源模型」的驚嘆;meta科學家田淵棟感慨:「這是非常偉大的工作。」「性價比」是商業社會中的制勝法寶之一,deepseek也因創新的模型架構和史無前例的性價比被稱為「大模型界的拼多多」,引發位元組、阿里、百度等大廠的大模型價格大戰。在外部看來,降價很像在搶用戶,也有人說這家公司是行業的一條鯰魚,公司創始人梁文鋒表示,「我們不是有意成為一條鯰魚,只是不小心成了一條鯰魚。」「搶用戶並不是我們的主要目的,我們降價一方面是因為在探索下一代模型的結構中,成本先降下來了;另一方面也覺得無論api,還是ai,都應該是普惠的、人人可以用得起的東西。」梁文鋒說。與deepseek-v3低成本訓練一樣令人驚嘆的是deepseek的員工規模。在團隊配置上, deepseek團隊只有139名研發人員,相比openai擁有1200名研究人員,團隊規模是deepseek的近乎9倍之多。其中,運算元、推理框架、多模態等研發工程師以及深度學習方面的研究人員共有約70人。比如前段時間的熱門話題「雷軍千萬年薪挖95後天才ai少女」,這位「95後ai天才少女」羅福莉,就是deepseek開源大模型deepseek-v2的關鍵開發者之一。openai前政策主管、anthropic聯合創始人jack clark曾這樣評價deepseek:「僱傭了一批高深莫測的奇才」,還認為中國製造的大模型,「將和無人機、電動汽車一樣,成為不容忽視的力量。」說回deepseek創始人梁文鋒,他出生於1985年,廣東湛江人,此前他接受專訪時自稱,「我是80年代在廣東一個五線城市長大的。我的父親是小學老師……」17歲時,梁文鋒考入浙大,讀的是電子工程系人工智慧方向,畢業後在浙大攻讀碩士研究生,論文題目是《基於低成本ptz攝像機的目標跟蹤演算法研究》。2015年,30歲的梁文鋒和朋友一起創辦了杭州幻方科技有限公司,立志成為世界頂級的量化對沖基金。2016年10月,幻方量化推出第一個ai模型,第一份由深度學習生成的交易倉位上線執行。到2017年底,幾乎所有的量化策略都採用ai模型計算。2023年5月,38歲的梁文鋒宣布做通用人工智慧(agi)。7月,他正式創辦杭州深度求索人工智慧基礎技術研究有限公司,就是deepseek公司,專註於ai大模型的研究和開發,公司設在杭州。從公開的工作經歷和職業生涯來看,梁文鋒在量化投資和高性能計算領域具有深厚的背景和豐富的經驗,創業範疇橫跨金融和人工智慧領域。去年,12月18日至20日,李強總理在浙江調研。在杭州,李強來到城西科創大走廊未來科技城展館和之江實驗室調研。他指出,創新是引領發展的第一動力。要主動擁抱科技變革浪潮,大力開展基礎研究和共性關鍵技術研究,加強算力等新型基礎設施布局建設,取得更多原創性引領性成果,為實現高水平科技自立自強貢獻力量。1月20日,就在參加總理座談會的當天,deepseek正式發布deepseek-r1模型。這款大模型在數學、代碼、自然語言推理等任務上,性能比肩openai o1正式版。在座談會上,李強總理提到,「要以科技創新推動新舊動能轉換,集中力量突破關鍵核心技術和前沿技術,加快推進科技成果產業化,努力培育更多經濟新增長點。」deepseek只是杭州科技創新的一個代表,國產大模型公司在列總理座談會,可見國家對科技的重視,也足見杭州在人工智慧領域的強大實力。過去30多年的it浪潮,中國基本上沒有參與到真正的技術創新,扮演的是追隨者的角色。梁文鋒曾在訪談中提到,「隨著經濟的發展,中國也應該逐步成為技術創新的主要貢獻者,而不是一直依賴別人的成果。」