美國各大頂級公司的AI模型生成式團隊孜孜不倦地熬夜奮戰,窮其洪荒之力試圖破解DeepSeek演算法密碼之際,深度求索(DeepSeek)公司突然公布了其演算法模型的底層邏輯,這讓美方始料未及。
對任何一個AI模型而言,底層邏輯和演算法密碼是其核心技術和競爭力的核心。美方是詫異和疑惑,一度認為這是DeepSeek的「迷蹤拳」,釋放出來混淆視聽的。
但很快,美方技術人員和工程師按照這套公布的邏輯和演算法進行匹配後,發現DeepSeek並沒有說謊,全部是實打實的數據,但面對對手送出的大禮,美方人員卻沒有任何興奮之情,反而陷入了尷尬,面面相覷。
一名技術人員感慨道:「這是先天優勢,降維打擊啊?」另一個技術人員道:「難怪深度求索(DeepSeek)大模型僅用1/3參數量就能碾壓我們的GPT-4」。沉默半晌,一個靈魂拷問的聲音響起:「這樣的底層邏輯我們還能或還敢跟嗎?」
要想了解令美方人員感慨的深度求索(DeepSeek)的底層邏輯,不得不先說一下這些年來矽谷公司出現的一個新職位——產品命名師。
這個職位的由來和一款「可穿戴腦波監測設備」有關。2014年,一家矽谷科技公司的研發團隊率先推出這款產品後,在產品命名上一籌莫展,為此他們特意招聘了一些創意人員。最終,在經歷了37次頭腦風暴後,誕生了這款產品的新名詞和一個全新的英語詞語「NeuroSync Wearable Cognitive Interfaceicon」。
常人念完這句話需要換氣三次,且不知所云,需要看詳細的產品介紹方能理解。而不久後,他們遠在深圳的中國同行直接在立項會上就拍出"智盔"二字——這是智能頭盔的簡稱。
如今,產品命名師在矽谷已成為科技公司的必配崗位,在這個新崗位背後是英語科技辭彙量以每年11%的增速膨脹。
現代英語單詞的辭彙量已經超過百萬,普通人一輩子也記不完。OpenAI的工程師曾半自嘲半抱怨地說:「訓練GPT-5最耗時的不是演算法優化,而是教會AI理解各種新興詞語,為了讓AI理解這些詞語的意思,工程師不得不進行海量備註。」
這個現象背後的真實原因是英語單詞之間沒有任何關聯性,難以進行簡化擴充。英語裡面自行車、小轎車、小貨車、貨車(Bicycles,cars,van,trucks)都是車,卻是截然不同的單詞;又如公雞是cock,母雞是hen,小雞是chicken,雞的一家子之間卻毫無聯繫,從單詞上也無法看出公母和大小。
在這個信息爆炸的時代,隨著科學技術、新型行業的發展和創新,元宇宙、區塊鏈等新概念的提出,各種新材料,新產品、新名詞、新叫法層出不窮,英文為了維持這些信息量只能不斷地暴力擴充詞庫,形成英語學習里最難理解和學習的專業英語。
相對而言,漢語基本不必發明新漢字,僅僅依靠原有的漢字組詞就可以了。《大英字典》里上百萬的英文辭彙,中文只需要四千個漢字就能全部表達。例如飛彈(missile),自慰器(Masturbator)等,英語都要產生新詞,漢語則無須如此,組詞就好了,不就是會飛的巨型子彈,會自己慰藉的小機器嗎。
你問英文可不可以組詞,當然也可以,但用英語造片語詞那就太長了。例如飛彈將成為「Flying-bullet」,自慰器成為「Self-comfort-equipment」等。這些忍耐一下還行,看看新冠疾病的英文縮寫,它的英文全稱是coronavirus infection disease,這還是第一個單詞是新造的,若不是新造的,長度至少再加一倍。
這讓世人突然感覺:英語好笨哦,中文好棒哦。然而你可知,曾經在很長一段時間裡,中文遭到口誅筆伐,差點被廢棄。
20世紀初期,甲午戰爭,滿清慘敗,全球瞠目結舌,彈丸之地打敗了泱泱大國,全球開始熱議一個議題:「中國為什麼會落後?」美國著名的學者約翰·杜威和英國的羅素研究後,說:「中國落後的主要原因是人口過多,負擔重,抵消了一切的努力和成果」。
中國知識分子在分析了「人機料法環」,摳破腦袋後也得出了一個結論:「中國失敗的原因是文盲太多,不利於推廣新技術」。這些人沿著這條線繼續深挖,最後找出阻礙中國進步的元兇禍首是漢字。文盲多是因為漢字太難學了,有「三多五難」的缺點:「三多」是字數多、筆劃多、讀音多;「五難」是難認、難讀、難記、難寫、難用。
這在當時「病急亂投醫」的救國浪潮中很快形成共識,包括陳獨秀、劉半農、瞿秋白、魯迅、蔡元培等民國精英都成了廢除漢字,改用拉丁字母的堅決擁護者。魯迅甚至痛心疾首地呼籲:「為了保存漢字,難道要讓十分之八的中國人做文盲來殉難」,「漢字不滅,中國必亡」,「到底為了漢字而犧牲我們,還是為我們而犧牲漢字呢?」瞿秋白將漢字比喻為「殭屍」,說:「漢字真正是世界上最齷齪最惡劣最混蛋的中世紀茅坑!」
他們認為正是「漢字的艱深,才使全國大多數的人民成為文盲,和前進的文化隔離,無法理解自身所遭受的壓榨,理解整個民族的危機。」
這種氛圍之下,全國掀起了廢除漢字熱潮,這個過程中又分為兩類,一類是拿來主義,直接使用英文或俄語;另一類是改革漢字,發音等不變,只是書寫方式改為拉丁語。幸好國民政府「人間清醒」,嚴厲查禁拉丁化運動,結果當時的文化界還將此事定義為國民黨「反革命」的罪證之一。
看到中國「如火如荼」的廢除漢字運動,蘇聯和美國出於擴大自身影響的需求,積極響應,蘇聯公開號召:「採用羅馬字也是民主主義革命的一部分」,於是朝鮮廢除了漢字,中國這邊也鬧得凶,要不是後來跟蘇聯翻臉,說不定改拉丁文的事就搞成了。
美國對其控制的韓國和日本,也要求立刻開始禁止漢字,日本在這方面態度還算溫和,半推半就。韓國這邊,總統朴正熙是把漢字廢除當作「投名狀」,不僅成立專門的「漢字廢止會」,還強行將國內所有的漢字招牌全部替換,否則嚴懲不貸。
很長時間裡,偌大的韓國只有3所大學開設中文系。但令人回味的是,朴正熙的長女,後來的韓國現任總統朴槿惠,個人介紹專欄是「精通漢語,喜歡中國哲學。」
漢字的廢除爭議在上世紀50年代到80年代基本消停了,但到了90年代,隨著互聯網和個人電腦的普及,漢字又遭遇了一次科技革命的「生存危機」。電腦鍵盤是按拉丁字母設計的,漢字筆畫多,同音字多,難以輸入,因此有人斷言:「中國將因為漢字而被互聯網浪潮所拋棄。」
所以在90年代初期,廢漢字的呼聲再次達到了高潮,各大高校中漢字的必修被改為選修。現在想來,這完全是一種本末倒置的說法,簡直是「鞋不合腳,寧可切腳,也不換鞋」。漢字不能適應電腦的操作,我們就改良電腦啊,而不是廢除漢字。漢字已經存在了數千年,電腦不過是近幾十年才出現的一個科技產品。
2010年後,隨著漢字輸入法的智能匹配和習慣用語自動提示,大幅度簡化了漢字輸入,尤其是中國國力的蒸蒸日上,國民自豪感增加,全球掀起漢字熱,漢字在近代第一次「昂首挺胸。」
但在計算機技術上,西方在所有的編程上早早建立了由拉丁字母形成的護城河。雖然國人一直在尋求漢字的電腦化,但由於用漢字編程後不能直接使用,需要由編碼器轉化成彙編語言。
這屬於脫了褲子放屁,而且在這個過程中,由於漢語的博大精深,編碼器轉換時詞義容易出現誤差,比不過使用英文字母直接輸入的準確,所以漢字在計算機編程上一直屬於「二等或三等」公民。
但如今隨著AI時代的來臨,這是一個不需要每個字母單獨敲入的時代,漢字異軍突起,不再只是溝通工具,而是成了文明演化的超導體,一躍成為中國AI碾壓西方的底層邏輯和密匙。
英語世界因為單詞量正在陷入AI困局,牛津詞典每年被迫收納4000+的新詞,晶元內存被海量字元吞噬,造成西方AI公司每年不得不因為新產生的單詞量而擴充伺服器。
這個時候漢語優勢盡顯,只需要重新組幾個詞就好了,AI 模型用英文要掌握上百萬的單詞,而改用中文只需幾千個漢字足矣。《新華字典》收錄了13萬辭彙,核心構件始終是3500個常用字,誰優誰劣一目了然。
這種優劣的直觀體現,尤其表現在AI模型的自主思考和深度學習上。英語單詞無法通過字面意思理解,這讓AI的自我深度學習都犯難,不得不進行人為干預,對每一個單詞進行備註,英語的「博大」正在成為AI發展的阻礙;中文恰恰相反,因為「精深」,言簡意賅,教會AI理解幾千單個字的意思,後面就能自己理解詞語的意思。
所以GPT-4的訓練成本才會如此之高,26個字母無法做到有效聯動,需要加倍的海量計算、檢索運行……GPT-4一次訓練的能量消耗高達2.15億度電,相當於3個三峽水電站日發電量。這正是英語單詞先天不足的機製造成的。
西方技術人員研究發現,中文字的原理天然適配神經網路分散式表徵。在中文的機制中,每個字如同單個神經元,思考時能快速聯動、自由組合、彈性十足。GPT-4模型的生成式團隊在破解DeepSeek後發現,DeepSeek模型的底層邏輯中很大佔比就是AI技術的漢字化,DeepSeek僅僅憑藉3500個漢字就實現了量子糾纏的算力,讓模型參數效率產生指數級提升。
經過比較,中文相較於英文能節省43%的神經認知資源,在增加27%算力的情況下,反而能節省18%能耗。
可以說,在AI模型的運算上,漢語只需排列組合就能實現對英文的降維打擊。這也是DeepSeek敢開源和公布演算法的底氣和「陽謀」,美國想有樣學樣擊敗DeepSeek就只能使用中文,而美國一旦在AI模型上使用中文,整個AI發展將進入中文時代,這是美國不願意、不能也不敢跟進的。
Deepseek利用中文的底層邏輯,輔以算力密匙,告訴全世界一個事實,在AI模型上算力不是唯一,世界上很多晶元可以替代英偉達。這完全是殺人誅心,瓦解了英偉達好不容易建立起來的cuda體系。
一個很有意義的現象是Deepseek的橫空出世,全球科技巨頭開始組織研究人員集中學習和理解中國的「道法自然」。特訓後,谷歌的技術人員將「陰陽平衡」原理寫入數據中心溫控演算法,替代以前的固定溫控,將能耗直降12%;西門子用「五行相生」原理優化工業物聯網,實現硬體的相輔相成,讓設備壽命延長23%。
全球科研人員發現這些來自《周易》的古老智慧正在變成破解複雜系統的萬能鑰匙,讓西方科技巨頭大感震撼,高呼太有意思。
這種情形下,不知不覺中,中國已經走到了前面,因為能玩轉《周易》、《易經》、《奇門遁甲》……這個世界除了擁有5000年底蘊的中國,還能有誰。