目錄
01. 引言
02. 自訓練模型可控可私有,得以快速商業化
03. 通用大模型不是萬能的,行業模型機會很大

引言
2023創投圈熱度最高的話題非AI賽道莫屬。從國外OpenAI、Google等推出AI殺手級應用,到百度等大廠追趕ChatGPT,推出屬於中國的通用大模型,就連美團聯合創始人王慧文、搜狗公司前CEO王小川等行業大咖也躬身入局,資深NLP專家也紛紛下場。截至5月16日,已有255家AI企業/產品被收錄在「生成式AI圈子」小程序,還有更多基於大語言模型(LLM)為創業起點的企業正在湧入市場。熱鬧之下,新一代AI行業的機會究竟在何處?
非凡產研經過數月以來不斷跟行業內創業者、專家以及AI方向投資人進行深入交流,觀察到中國當前AI競爭中首先獲得參賽資格的是具有前瞻性視野、擁有模型自訓練技術和工程能力,深入運用模型應用到垂直場景,形成商業解決方案的企業。
我們還深度採訪了四家自訓練模型並且應用到垂直場景,快速實現商業化的企業。分別是必優科技的創始人周澤安、瀾舟科技創始人周明、秘塔科技COO王益為和睿企科技董事長於偉,深度剖析為什麼這類企業能夠在AI創業浪潮中率先把握機會以及為什麼行業模型是中國產業數智化的關鍵。
必優科技
必優科技是一家專註於人工智慧領域的智能可控內容生成技術(AICGC,AI-Control Generate Content)的科技型公司,致力於向企業提供30+垂直行業內容的智能創作SaaS服務,驅動內容創作效率革新,同時為企業提供一站式垂類行業模型應用構建(AIGC模型訓練,API介面與低代碼web應用)的SaaS平台解決方案。
瀾舟科技
瀾舟科技是一家業界領先的認知智能公司,致力於以自然語言處理(NLP)技術為基礎,為全球企業提供新一代認知智能平台,助力企業數字化轉型升級。其主要產品是基於「孟子預訓練模型」打造的一系列功能引擎(包括搜索、生成、翻譯、對話等)和垂直場景應用。
秘塔科技
秘塔科技是是人工智慧領域的一家新銳科技公司,致力於將重複腦力勞動AI化,以AI為槓桿撬動專業場景的百倍生產力提升。目前,秘塔科技已經擁有近千萬用戶,成立北京和成都兩大研發中心,在文本AIGC、文檔輔助創作、法律專業場景等方向上開展研發與產品落地。
睿企科技
睿企科技是一家深耕垂直領域大模型的人工智慧公司,致力於通過領先的多模態大模型和認知決策大腦讓每一個組織和個人都能擁有專屬自己的個性化AI大腦。公司已經在政務、法務、金融、教育、營銷等多個行業落地,產品包括法務合規審核機器人、案件研判機器人、個性化助理機器人等一系列AI產品。

為什麼要做自訓練模型?
•如何定義自訓練模型?•
自訓練模型是指基於Transformer架構*,使用了大量的預訓練數據和自監督學習方法,可以完成各種自然語言處理任務。
Transformer架構*:最早是由Google於2017年在「Attention is all you need」一文中提出,在論文中該模型主要是被用於克服機器翻譯任務中傳統網路訓練時間過長,難以較好實現並行計算的問題。
相當於從零搭建、訓練語言模型,如BERT、GPT、T5等模型都是基於類似的架構訓練。基於行業數據所搭建的自訓練模型,往往具備可私有化,開源的特點。
本文受訪的必優科技、瀾舟科技、秘塔科技和睿企科技,均為具有自訓練模型並且已率先應用到行業場景,快速實現商業化的企業。
• 自訓練與利用API應用開發有什麼不同?•
如果從構建商業模式壁壘來說,隨著通用模型以超乎人類想像的速度優化延伸其基礎能力,越是靠近基礎功能的應用越危險。
Jasper AI近期的局面就說明了該問題。
Jasper AI是美國一家2021年成立的專註營銷領域內容創作的公司,Jasper AI是GPT生態早期的最大贏家之一。在ChatGPT發布前,用戶難以直接使用LLM的語言理解與生成能力,由此Jasper基於GPT-3模型的API,通過模型的微調(fine-tune)*打造了營銷內容生成平台,用戶量超過10萬,成立短短18個月的時間估值快速增長到15億美元。然而ChatGPT的問世,取代了Jasper提供的部分基礎功能,免費的同時兼具極佳的易用性,大部分中小客戶的需求可以直接通過ChatGPT滿足。這給Jasper的定價帶來極大壓力,Jasper的優勢大大減弱。有消息稱,其上輪投資方在ChatGPT成為C端現象級應用時就已經考慮出售其股份了。
模型的微調(fine-tune)*指在一個已經訓練好的模型的基礎上,使用新的數據集或者任務對模型進行進一步的訓練,以適應特定的任務或者數據。通常情況下,fine-tune會調整模型的參數,使得模型可以更好地擬合新的數據集或者完成新的任務。
如果從開發到商用的難度及成本的角度來說,無疑API應用開發是最快最便捷的,自訓練模型的搭建包括了多個複雜環節,包括模型的複雜度、數據的質量和數量、演算法的選擇和實現、計算資源的可用性、團隊的經驗和技能等等。在一般情況下,自訓練模型從開發到商用的時間可能需要數月或數年的時間不等。
例如必優科技所訓練的垂直行業語言模型(SLLM)模型耗時14個月,該模型為專註於NLP下的細分CTG(Control Text Generate)方向的行業模型。
在創業公司的生存壓力下,形成商業解決方案並成功服務客戶才是最重要的事情,在此情形下,煉丹和投喂都變得十分講究性價比。
瀾舟科技創始人周明博士把當前不同的AI商業解決方案技術路線類比自動駕駛發展階段,也將AI技術路線的演進比喻成三個發展階段。
L1(Level 1)是自研/自訓練通用大模型,例如ChatGPT所使用的GPT-4模型;L2是在LLM基礎上利用行業大數據,建立行業大模型,深度參與到行業使用場景當中;L3是基於各個場景需求,在行業模型/LLM的基礎上,根據具體任務,要麼做fine-tune,要麼做prompt工程等,來滿足場景的需要。

很多大模型的創業團隊剛起步,大多數處在L1階段,少數團隊選擇L2階段創業。
瀾舟科技從2021年就開始了自研大模型之路,並獲得了創新工場、斯道資本等機構的多輪融資支持。據周明博士介紹,瀾舟科技推出的「孟子」模型,其技術底座均為瀾舟自訓練,已經率先形成了商業閉環。而瀾舟科技剛成立時就堅持選擇自訓練模型路徑,貫穿L1到L3,並率先形成商業化解決方案。此舉從今天看來頗具先見之明。
以金融行業為例,現有的LLM無法深入到金融行業的業務場景之中,即使使用大廠的LLM模型,也不會給客戶做定製化的fine-tune。所以瀾舟科技選擇了在自研LLM的基礎上,自訓練行業模型,服務於金融行業的客戶,可私有化部署,可基於客戶數據訓練,深度參與到行業業務場景之中。
必優科技的創始人周澤安認為,模型的生成可控性非常重要,自訓練可以完全掌控生成的質量。
「通用大模型可以迅速達到60分,而必優科技的自訓練模型能夠做到在核心場景裡面從60分到90分。」
模型的可控生成可以滿足可信、可控的要求。而如果僅使用通用模型的基礎微調,其提供給下游場景模型的可控fine-tune優化空間有限。
睿企科技董事長於偉博士提出,儘管基礎通用大模型已經達到優秀高中畢業生甚至未來達到優秀本科畢業生的水平,但是在實際落地應用中所需要的模型能力更多是專業的能力,需要專業的知識和數據進行訓練,而這類知識和數據大多是私有數據,不能對外開放。因此,睿企科技自2018年成立之初就致力於基於Transformer的行業垂直大模型的訓練,為行業提供具備專業能力的NLU(自然語言處理解)和NLG(自然語言生成)大模型。

行業大模型,是中國當前最容易看清楚的屬於創業公司的好機會
行業模型是指,依託特定行業自有數據,結合行業場景,通過自訓練或基於開源通用模型的API做應用開發的模型。
• 通用大模型入局成本過高,行業模型有更多創業機會 •
通用大模型的創業成本極其高昂,例如在算力成本方面,1750億參數的GPT-3用到了上萬塊A100晶元,機時費用是460萬美元,資金花費就高達1200萬美元。
瀾舟科技創始人周明博士指出,假設組建10到20人的團隊,購買500塊到1000塊GPU,每年最便宜大概也要投入5000萬人民幣作為研發費用,能夠訓練出一個百億數據級別的模型,如果訓練千億級模型就在需要大概再投入7-10倍的資金,相當於兩億到三億人民幣左右。
睿企科技董事長於偉博士指出,隨著用戶對模型能力的期望和要求不斷變高,模型參數和訓練數據也需要不斷增加,受限於訓練成本,未來只有像微軟和谷歌這類既有技術又有應用場景、還具備超級財力的互聯網高科技公司才有可能在通用大模型訓練進行持續的投入。
當前國內研發LLM的團隊至少30家,如百度、MiniMax和智譜AI等,均為資金,人才,資源、經驗密集的大公司及知名創業者領銜。屬於大多數創業者的機會並不在通用大模型領域。
相比LLM,行業模型的創業並不需要自己訓練通用大模型,可以直接基於最先進的開源模型或API進行二次訓練,模型訓練成本大幅降低。
不需要一開始就對標GPT3.5做千億級參數的大模型,減少模型參數量反而使得訓練的算力成本下降、複雜度降低,在小樣本學習下進行多次有效的訓練,從而迅速獲得know-how和產品反饋。
減少模型參數之後,訓練一次的成本甚至能夠從幾百萬美元減小到幾十萬美元。那麼就得以在特定領域對模型進行多次訓練,此時與通用大模型就形成了差異化優勢。並且相對低的成本會帶來客戶可承受的定價,尤其是在結合客戶數據的二次訓練階段和使用階段的成本要低很多。
秘塔科技COO王益為提出創業公司難以兼顧的三個難點,即「不可能三角」:投入的成本、模型的多樣性和模型的可信度。除非有無窮無盡的資金、資源可以投入,大多數模型只能做到其中一點或者兼顧兩點,即使 OpenAI 也達不到三者兼顧的程度。
周明博士提出,瀾舟科技目前並沒有做千億級的大模型,除了成本考量,一個重要原因就是客戶目前沒有那麼強的需求,必須做一個千億級大模型。在很多場景,客戶需要低成本且適用的模型。
必優科技周澤安認為,通用大模型的基礎底座很重要,給各行各業整體帶來了在泛化生成能力上的提升,但在如何利用通用模型打造出滿足業務場景的下游模型更為關鍵,雖然大模型目前已經顯現出在特定場景的具象處理能力,但其在實際應用的可控生成能力(可控輸入/輸出、可信可塑內容)卻要弱於場景模型。針對在特定場景和特定用途的數據集上訓練更精細的模型,所以必優科技依託於自研 RFKL智能演算法範式迅速嘗試了90多個場景模型(伯樂、商賈、圖芴三大系列),並基於精準的高價值用戶反饋數據,可實現模型自我優化。
睿企科技於偉博士提出,睿企科技的產品即是從模型的專業性和實戰價值出發,不盲目追求模型參數規模,而是專註與針對行業中需要的專業能力,訓練能滿足要求的性價比最高的模型,解決邏輯應用過程中遇到的算力不足的問題。
• 行業模型的壁壘在於場景和數據 •
GPT為代表的通用大模型湧現出驚人的理解和生成能力以及強大的知識儲備。但是通用大模型可以全方位碾壓行業模型嗎?周明博士指出,「通用大模型是萬能的,這只是一個幻覺。」
在處理海量數據、重複性流程和追求個性化的C端場景,通用大模型會更有優勢;而在非常專業的To B場景,例如金融、法律和醫療等一些對輸出內容的精準度以及質量要求比較高的行業,需要在通用模型的基礎上加入私密且專業的高價值數據集進行模型訓練和工作流程優化,才能滿足專業場景的需求。
如果能夠掌握充足且獨特的數據量,不單純依賴第三方API,選擇垂直化方式(自訓練模型應用於面向用戶的應用),垂直整合場景中複雜度足夠深的任務,快速迭代,尋找真實的閉環場景和用戶反饋,從而建立競爭壁壘。
此外,由於通用模型和行業模型的用戶群體差異較大,因此反饋數據有較大差異,使得由垂直行業模型生成的內容更能符合特定垂直場景的需求,生成質量和深度也會更高。用於RLHF(Reinforcement Learning from Human Feedback,基於人類反饋的強化學習)的高質量用戶反饋也起到非常關鍵的作用,有助於不斷推動模型產出的內容質量進一步提升。
這也說明了行業模型,數據為先,場景為王。
睿企科技於偉博士以公檢法行業為例,提到執法辦案工作人員的工作量大、涉及的各種文書種類很多、流程繁瑣、對合規要求相當高,而文書材料也是執法辦案過程中的關鍵部分,不能有一點瑕疵。公檢法行業有極大的剛性需求、每年也有大量的預算投入,並且擁有很多高質量數據。睿企科技結合公檢法部門的業務需求,基於通用大模型,把專屬數據和業務知識放在定製化的多模態垂直大模型裡面,幫助公檢法部門訓練專屬AI大腦,推出一系列基於大模型的簡單易用的AI產品,包括執法辦案智能合規審核機器人、智能接處警機器人等,解決工作痛點提升效率。
秘塔科技COO王益為表示,法律諮詢場景的核心問題在於不能直接使用通用模型,因為LLM的目前存在Hallucination(機器幻覺,指事實性錯誤),阻礙了B端的法律場景深度應用。通過一個字去預測下一句,這種技術方式在法律諮詢的領域裡行不通。所以對於創業公司來說,首先資源是非常有限的,那麼一定要選擇具有特色的一些場景,比如行業付費意願強,並且對於可信度要求極高的領域。
必優科技基於Transformer架構,引入了自研WCCG(Wernicke Control Content Generate)模型,並在中間加了一層融合,通過可控的方式去生成模型,並且擁有獨創的 RFKL 智能演算法範式。通用模型本身有很強的知識性,但是精確度方面,通用模型只能解決的是 6 、7成的問題。必優科技則通過場景倒推模型的機制,基於精準的高價值用戶反饋數據,通過數據飛輪強化對場景模型的內容生成方向進行引導,實現模型自我優化,在特定場景中需要專門優化模型來提升生成質量,重塑以數據為驅動的內容創作新模式。必優科技在用模型嘗試了近百種行業場景後,依據反饋聚焦在了人力招聘、辦公office場景。
「自訓練特定的場景模型不僅是單純的在技術層面實現,還要配合對數據的理解,實打實的去紮根到了解這個行業的本質,或者內容到底輸出是給誰用?這樣才能反向定義數據去訓練。」
瀾舟科技創始人周明博士認為兩年後沒有人再會談論大模型,因為它已經成為基礎設施了,行業競爭格局將會穩定,通用大模型領域不再會出現新的創業機會。那就意味著將會就有很多公司倒閉或者轉型,這些團隊的從業人員在市場上面將會形成很強的技術外溢效應,或者將在非大模型行業內滲透。同時意味著即使是通用大模型做的很好的企業也不能僅僅依賴模型業務,也應該更多去發展各自的生態或者在這基礎上做一些新的運營。
• 行業模型可以與通用模型LLM並存 •
目前行業內共識是中國一定要有自己的大模型,大廠一定會專註在全力迅速地建立通用大模型能力。這給創業公司留出了生存空間。
在C端,由於大廠的流量、規模效應和千億大模型的通用性,創業公司的機會將被大量擠兌,需要在夾縫中尋找機會,做大廠沒有形成共識的方向;在B端,大型客戶大概率不會使用大廠的產品,而傾向於選擇可定製的私有化部署解決方案。
行業模型創業公司需要具備特定領域的獨有關鍵數據,在具體場景上又快又好的解決問題,兼具私有化部署能力,就可以與通用模型LLM並存,在行業中找到生態位。
秘塔科技COO王益為提出只要選取自己真正懂的場景,即使巨頭都已經布局,秘塔科技仍然在細分領域裡面有機會和提升的空間。而在法律行業,對於生成文本的多樣性要求並不是特別高,但是對於法律服務的嚴謹度和可信度要求特別高。秘塔科技在選擇技術路線和產品路線上有一些思考,秘塔科技的模型本身就是為了文生文的任務去做的單一任務訓練,相應去精心準備資料庫,在專項文本上進行強化和訓練,形成正式文件的文風,這就是秘塔科技競爭的優勢。
在直接向C端提供文本AIGC服務的產品中,秘塔科技擁有最多的用戶(近千萬);在法律行業中,秘塔科技的現有用戶覆蓋數千家律師事務所和公司法務部。
睿企科技於偉博士指出,儘管行業模型創業不需要從頭訓練通用大模型,但是挑戰同樣存在。行業模型創業需要業務、數據、模型的有機融合,因為用戶只會採購能滿足他們需求的性價比最高的服務和產品。如何找到一個巨大的市場並把產品和服務做到極致,成為行業頭羊,是每個垂直行業模型創業公司必須面對的挑戰。
• 行業模型很有可能是中國產業數智化的最後一公里 •
這一波AI被稱為第四次工業革命,將徹底改變每一個行業。阿里董事會主席張勇提出「所有行業都值得用大模型重做一遍」。
即便中國在通用模型技術上是跟隨者,但並不代表著中國市場會參照美國市場而發展。
美國的AI賽道創業環境,以OpenAI為例,活躍開放的資本市場、充足的算力資源和人才更適合「大力出奇蹟」路線;中國的創業環境更加看重技術應用的深度,中國創業者擅長在產業應用里創新。陸奇博士在奇績創壇的演講中表示,中國的重要優勢在於政府在AI領域的投入、支持和重視程度高於其他國家。
睿企科技於偉博士提到,十三五期間中國政府在公檢法領域投入數萬億,催生了一大批人工智慧企業的高速發展和上市,加速了人工智慧技術的發展。十四五期間,中國政府在大模型上的持續投入也會縮小和美國的差距,並在很多領域超過美國。
美國從上世紀90年代就開始了數字化浪潮,相比於美國而言,中國企業尚處於數字化轉型初期,中國有大量亟待數字化轉型升級的傳統產業,有太多需要依賴人工智慧實現效率提高的業務場景。
在中國30年的產業數智化浪潮之中,一直延續著的信息化-數字化-智能化的演進路線,隨著通用模型及行業模型加入到產業數智化浪潮之中,很有可能在部分關鍵場景率先利用AI模型達到智能化,從而倒逼產業其他工作流及場景快速形成數據沉澱,這將大大加快中國整個產業數智化的進程。
- END -
作者 | 徐萌
審核 | 斯基
行業圖譜 |