活久見!誰想的這種辦法讓大模型PK

2024年06月13日21:30:14 動漫 6950

活久見!誰想的這種辦法讓大模型PK - 天天要聞

文|白    鴿

編|王一粟

「每個大模型看起來都差不多,只能誰便宜先用誰的。但用下來之後,不合適再換,又費錢又費力」,一位ai 招聘公司的創始人對光錐智能抱怨道。

2024年,大模型正在加速走向行業應用。但每一種大模型所擅長的領域都不一樣,如何找到最適合自身業務場景的大模型,成為擺在開發者們眼前的難題之一。

「在之前做大模型應用開發過程中,我們一般會先選擇一到兩個大模型,單獨對接研發產品,demo出來之後,再去評估大模型是否合適。」一位開發者如此對光錐智能說道。

不難看出,這種大模型應用開發方式,耗時耗力,開發成本也非常高昂。

基於此,當前各大廠商都在ai應用開發平台中內置了模型評估和模型選擇等功能,比如百度智能雲千帆大模型平台、亞馬遜雲科技的amazon bedrock等。

但這些平台的模型評估和選擇功能,更適用於企業級開發者。於普通的個人開發者而言,尤其是沒有編程基礎的用戶,很難搞清楚這背後模型評估的邏輯。

那麼,有沒有一種更加簡單、清晰、適合個人開發者的模型評估與選擇方式?

位元組跳動將自身經典的a/b測試方法論,帶到了大模型選擇與評估上。

6月12日,由位元組跳動ai應用開發平台—扣子(coze.cn)推出了「扣子模型廣場」。模型廣場主要包含兩方面能力:

其一,模型集市。模型廣場已經接入多個國內頭部大語言模型,包括豆包、通義千問、智譜、minimax、moonshot 、baichuan等,在創建bot(智能體)、調試bot時都可以一鍵切換。

其二,模型競技場。通過類似小遊戲的模型對戰,開發者可以讓兩個隱藏了模型的bot一鍵pk,並根據模型的回答進行投票,投票結束後才會揭秘具體的模型。

一鍵pk,傻瓜式的操作,為開發者提供了一種相當簡單便捷地篩選大模型的方式。

這種pk,類似對大模型進行「a/b測試」,給予大模型真實的人類反饋,能夠快速促進大模型的升級迭代,從而為bot應用開發提供更好的底層技術能力支持。

同時,為了激勵開發者使用大模型來開發bot,扣子聯合 intel 推出 ai 工坊活動,重點覆蓋圖文創作賽道、實用工具賽道、互動創意賽道三大賽道。

為了能夠給開發者提供「開箱即用」的體驗,扣子上線了bot商店、插件商店,甚至開發者最關注的核心工作流也於近期有了商店。

可以看到,2024年已經過半,大模型的能力迭代和智能體的應用落地都在同步快速進展中。

而位元組跳動在推薦演算法時代賴以生存的「數據驅動」的底層思維,已經悄然在大模型上實現。用大模型競技場吸引用戶反饋,讓大模型的調用量提升起來,再帶動bot的開發。後續,再結合位元組跳動的內容生態特點,完成商業化閉環。

位元組跳動,這家在移動互聯網時代的「app工廠」,已經開始進化成「大模型工廠」。

模型競技,小遊戲測出大模型的效果

a/b測試的思維,深植於位元組跳動的企業文化與基因中。

對於位元組跳動組織內的人員來說,上至中高管理層,下至一線產品、運營人員,都有一個普遍共識:a/b測試是一切決策的前提與基礎。上線任何策略之前,先跑一遍a/b測試,用數據說話。

比如今日頭條、抖音、西瓜等,這些產品的名字並非產品經理或者業務負責人拍腦袋、經驗主義的決策結果,而是將不同名稱的應用包上架至應用市場之後,通過下載率和分享率來進行定奪,本質上即通過a/b測試的思想,將產品的決策權交給了用戶。

產品功能上,抖音彈幕功能上線前,團隊應用a/b測試設計一個實驗,將沒有彈幕的頁面設置為對照組,將有彈幕無其他互動功能的頁面和有彈幕有其他互動功能的頁面分別設為實驗組1、2。

通過實驗,抖音團隊發現彈幕功能在疊加其他互動功能的時候,可以提升互動率,但同時,視頻的瀏覽量和用戶留存都有下降。即,彈幕功能不足以轉化為長期的比較穩定的用戶價值。因此,實驗後抖音團隊作出的決策是不上線此功能。

而此次扣子推出的模型廣場中「模型競技功能」,也同樣延續了a/b測試機制。

活久見!誰想的這種辦法讓大模型PK - 天天要聞

模型競技主要有三種模式:

指定bot對戰,即用戶可以選擇一個感興趣的bot,扣子將隨機選取兩個匿名模型,基於bot的promt、工作流、知識庫等能力配置回答用戶的問題。主要適用於評測模型在指定細分領域的文本生成、技能和知識調用等能力。

活久見!誰想的這種辦法讓大模型PK - 天天要聞

隨機bot對戰,即扣子將從上架bot中隨機選擇一個bot,並隨機選擇兩個匿名模型,基於bot的promt、工作流、知識庫等能力配置回答用戶的問題。主要適用於評測模型在任意業務場景下的文本生成、技能和知識調用等能力。

活久見!誰想的這種辦法讓大模型PK - 天天要聞

 純模型對戰,即不指定任何bot,統隨機選擇兩個模型展開對決,模型回答不受 promt、工作流等配置的限制和影響,適用於評測模型本身的文本生成等能力。

活久見!誰想的這種辦法讓大模型PK - 天天要聞

不管是哪一種競技方式,都需要用戶對模型進行提問,然後基於模型回答問題所生成的內容,通過進行ab選擇,來評判其生成內容的好壞,進而來評估大模型的能力。 

在光錐智能體驗的過程,點擊隨機開始後,扣子平台系統會隨機選擇兩個bot,比如影視分析bot,這兩個bot背後所對應的是兩個不同的大模型產品。頁面上會簡單介紹兩個bot的使用場景,並一般會在bot下方提供具體的鏈接或者與具體使用場景相關的問題,比如抖音視頻鏈接、影視內容等。 

用戶可以直接點擊bot提供的問題,也可以自主進行提問,在提問之後,兩個模型開始作答,回答內容完成後,下方會顯示此次回答所用時長,以及會繼續給出相關的問題。 

如果僅是簡單測試,此時已經可以進行bot回答內容優劣選擇,包括選擇a或b,以及兩個都好和兩個都差。在選擇完成後,會顯示出兩個bot背後的大模型產品,以及大模型的相關性能。 

這種簡單的「ab選擇」的小遊戲,能夠激發普通人使用大模型競技場的慾望。

用戶可以以極低成本,廣泛參與模型廣場的pk對決,來扣子感受ai的魅力,尤其是沒有編程經驗的普通人。如果能夠再提供一定的獎勵機制,就更能帶動更多用戶參與真實模型反饋。 

於開發者而言,想要在扣子上搭建一款bot應用,在搭建前可通過模型廣場,進行大模型pk,從而能夠更簡單、高效、便捷的選出最合適的大模型產品,極大的降低了使用大模型的門檻。

而對大模型廠商而言,模型競技帶來了真實的人類反饋,這個數據超級珍貴。

比如openai自上線chatgpt後,自身大模型能力進化速度非常快。在今年春季發布會上,openai的gpt-4o已經向更自然的人機交互邁進了一步,其可接受文本、音頻和圖像的任意組合作為輸入內容,並生成文本、音頻和圖像的任意組合輸出內容。 

在國內,去年百度文心一言也宣布正式向公眾開放服務,用戶可在app store(免費榜第一)、官網下載/體驗,無需申請內測資格即可使用,這也就意味著文心一言能夠獲取更多用戶真實的反饋數據。 

也因此,在扣子平台模型廣場上,隨著越來越多用戶進行模型pk,就會匯聚更多用戶真實反饋數據,能夠持續不斷的推動大模型能力的迭代,來為用戶提供更好的體驗。 

因此,在扣子平台上,開發者能夠更好的調動大模型能力開發產品,大模型廠商基於真實數據進行產品能力的迭代升級,不斷激發平台上應用的創新,形成完整的大模型應用開發生態閉環。 

也就是說,扣子平台的ai應用開發生態,也形成了良性開發和競爭環境。 

ai開發平台這麼多,智能體爆款在哪裡?

在大模型應用的過程中,bot(智能體)成為了重點方向之一。 

從去年開始,各大廠商也都在積極布局bot(智能體)開發平台。比如 openai的gpt store、位元組跳動的扣子、騰訊雲的騰訊元器、百度智能雲的千帆agentbuilder、阿里雲的agentscope多智能體開發平台等。 

不可否認的是,雖然各家都在做bot(智能體)開發,但當前並未出現一款真正的爆款應用。究其原因,還是現階段大模型應用並不能夠讓用戶覺得好用、愛用。 

「目前ai應用平台雖然很多,但做出來的應用都是浮於表面的,沒有解決行業的問題。」銀泰百貨零售百貨數智化產品負責人得壹對光錐智能稱。

光錐智能在體驗各種bot時,體驗並不是很好。首先是很實用的bot並不多,工具效率類如短視頻選題、小紅書爆款文案生成器等相對較好,但其他類似甄嬛傳十級考試的就比較嘗鮮式,體驗和小程序差不多,並不能特別突出大模型的優勢。 

另外,即使是兒童百科這樣的bot,回答的內容不夠深度,需要有更為標準的指令詞,才能獲得更精準的答案,但這對於沒有編程基礎的普通用戶而言,並不是一件容易的事情。 

同時,在企業級的應用中,現階段也很難將人工智慧與人工完全分開,都是需要與人工進行相互配合,才能夠更好的為客戶提供服務。 

因此,如何開發一款好用的bot,能夠讓更多用戶使用它,則成為了大模型應用突圍的關鍵。那麼,究竟如何才能夠開發出一款真正好用的bot?

極低的大模型使用門檻和成本,是推動用戶不斷開發各種ai bot的基礎。不過,一位從業者表示,bot(智能體)開發起來很容易,但對於優化很耗費時間。也就是說,普通人開發一款bot門檻並不高,但想要讓它真正好用,難度卻比較大。 

所以除了大模型的基礎能力,各種拓展bot技能的插件、工作流、圖像流、觸發器等工具,也是開發一款好用bot的關鍵。

比如,用戶既可以一句話創建個簡單的bot,也可以像拼圖一樣,把幾個功能組裝成一個bot,這種組裝的bot就是工作流。 

「一位汽車發燒友使用工作流功能添加5個節點,就實現了根據用戶需求搜索車型、對比參數,到最終輸出圖文並茂的購車建議的全部流程,用自己的專業知識解決了身邊朋友們選車困擾。」扣子產品經理潘宇揚如此說道。 

斯坦福大學教授、人工智慧著名學者吳恩達指出,ai智能體的工作流程將在今年推動人工智慧取得巨大進步,甚至可能超過下一代基礎模型。

之所以有如此判斷,原因在於通過agent工作流,開發者可以要求llms對文檔進行多次迭代,對於ai來說,這種迭代工作流產生的結果則會比一次性寫作要好得多。 

吳恩達根據數據發現,gpt-3.5(零樣本)的正確率為48.1%,gpt-4(零樣本)的正確率更高,為67.0%,其表現相差並不是很大。但通過引入迭代工作流,gpt-3.5正確率高達95.1%。 

因此,當前工作流正在成為bot(智能體)開發過程中的關鍵一環,也備受開發者們關注。

針對圖像素材的處理,扣子平台還有專門處理素材的圖像流,涵蓋素材獲取、素材編輯、素材導出三大環節,讓作圖變得更簡單。 

此外,即使同一個bot,用戶的需求也並不完全一樣。 

因此,扣子平台還提供了長期記憶、資料庫、文件盒子等功能。 基於這些功能,bot會記住用戶說過的關鍵信息、喜好,甚至連用戶看過的文件、偶然冒出的小想法都會細心捕捉。 

比如在旅遊時,如果用戶覺得某個地方的葡萄酒不錯,當下次想小酌一杯時,bot就會根據其的口味,推薦適合的那一款。 

但bot只了解用戶是遠遠不夠的,大模型的知識來源於訓練數據,它並不了解最新發生的事情,自然也無法幫用戶觸達周邊的服務。 

而扣子提供的插件、觸發器、知識庫等能力,則可以讓bot不斷獲取新的信息,從而更加了解用戶身邊的世界。 比如每天早上,它會幫你查詢天氣,規劃通勤路線;工作時,它可以幫你分析郵件,提煉要點;下班後,它能為你推薦感興趣的視頻,和你聊天解悶。 

基於以上能力,普通開發者也能搭建出很強能力的bot,把自己的專業能力用ai發揮出來。 

目前,扣子上已經發布了海量bot,主要應用場景分類為效率工具、商業服務、文本創作、學習教育、代碼助手、生活方式、遊戲、圖像與音視頻、角色等。 

據光錐智能觀察,目前熱度最高的應用類型,主要是效率工具,遊戲、圖像與音視頻等,畢竟,這些場景天然與生成式ai的落地應用適配,並且是人們日常生活中最常應用的領域。 

隨著大模型時代的到來,互聯網時代數字化的需求(衣食住行),或許都可以用ai 重新做一遍。而真正ai native的應用,或許就誕生其中。

構建商業閉環,真正走向市場

如果不能夠將開發出來的bot實現商業化落地,產生商業價值,也勢必不會真正的走向市場。 

近日,據媒體報道,微軟宣布copilot gpts將於7月10日起停服,用戶已經創建的gpts將被清空。copilot gpt builder允許copilot pro用戶創建和共享定製的特定任務聊天機器人,類似於微軟投資openai的定製gpt builder和gpt store。 

對此,微軟給出的官方解釋是公司戰略調整——正在將gpt的重點轉向商業和企業場景,背後原因可能是缺乏商業回報。copilot gpts關閉引發了用戶不滿,批評者質疑此舉會切斷創新並削減消費者對於產品的信任。 

活久見!誰想的這種辦法讓大模型PK - 天天要聞

「不少智能體目前都是高開低走,用戶都是嘗鮮玩一下,後期都吃灰了。而且,能高開的都是極少數。」一位開發者如此對光錐智能說道。 

那麼,如何讓智能體真正的用起來?必須要在特定的場景、產生真正可用的價值。

業內皆知,位元組跳動擁有強大的圖文、視頻音頻生態內容體系,抖音和頭條也養活了一批依靠其流量轉化的企業和個人用戶。 

圖文和音視頻,一定是位元組跳動在大模型賽道的優勢領域。 

此次由扣子和 intel 聯合推出的主題bot徵集活動扣子 ai 工坊( coze ai factory ),主要涵蓋圖文創作賽道、實用工具賽道、互動創意賽道三大賽道。 

而這三大賽道,也將成為位元組跳動幫助開發者的bot應用實現商業價值的試驗田。

我們可以試想一下,如果抖音、頭條能夠直接在後台為開發者應用提供介面,就能夠讓抖音、頭條用戶直接使用bot應用。像類似mbti性格測試的產品,通過在抖音視頻中添加鏈接,吸引用戶使用該產品,就可以實現轉化和收益。 

而實用工具賽道,則是社會發展的剛需,比如對於文字工作者來說,類似爆款文案生成器、抖音爆款文案搜集等bot,能夠為其提供更多的能力支持。 

隨著扣子模型廣場的推出,以及ai工坊活動持續吸引開發者入駐,位元組跳動在大模型賽道中,從技術,到產品,再到市場的閉環,已經逐漸完善起來。現如今,還差的就是一款爆款bot應用,來推動閉環的完成,我們還需要再給bot多一些時間。 

動漫分類資訊推薦

受賄1047萬餘元,貴州省畢節市七星關區原區長劉慶獲刑十年三個月 - 天天要聞

受賄1047萬餘元,貴州省畢節市七星關區原區長劉慶獲刑十年三個月

2024年6月26日,貴州省銅仁市中級人民法院一審公開宣判貴州省畢節市七星關區原區長劉慶受賄一案,以受賄罪判處被告人劉慶有期徒刑十年三個月,並處罰金人民幣八十萬元;對已退繳的贓款贓物及孳息依法予以沒收,上繳國庫,對未繳贓款依法予以追繳,上繳國庫。經審理查明:2011年至2022年,被告人劉慶利用擔任貴州省赫章縣產...
集齊大模型「七龍珠」 釘釘召喚「神龍」 - 天天要聞

集齊大模型「七龍珠」 釘釘召喚「神龍」

6月25日,openAI發布將終止對中國提供服務的消息後,包括阿里通義千問、百度文心一言、商湯科技等國內大模型廠商紛紛採取行動,發布了免費提供openAI的遷移方案、大模型0元購等消息,國內AI行業一場商戰硝煙瀰漫。「傳說集齊七龍珠,就能召喚神龍,今天我們釘釘集齊了大模型『七龍珠』,是不是同樣可以召喚出AI神龍……」6...
國際禁毒日丨永!遠!說!不! - 天天要聞

國際禁毒日丨永!遠!說!不!

你知道中國人的禁毒意識有多強嗎?!幾年前江蘇連雲港市一食客因為涼皮太好吃經常吃不禁懷疑涼皮裡面放了罌粟遂報警並送檢了一份吃剩的涼皮圖文無關沒成想這一查還真有涼皮內含有罌粟鹼、那可丁等成分民警也在商家搜出了大量含有罌粟成分的辣椒油及粉末 好幾年前四川綿陽一小偷入室行竊時發現屋子「空空如也」只有大量塑料...
大疆 DJI Air 3S 航拍無人機諜照曝光,有望換用 1 英寸主攝 - 天天要聞

大疆 DJI Air 3S 航拍無人機諜照曝光,有望換用 1 英寸主攝

IT之家 6 月 24 日消息,消息源 Igor Bogdanov 今天曝光了大疆 DJI Air 3S 航拍無人機的諜照,綜合此前 SBDJI 網站爆料的「疑似實拍圖」,這款無人機延續現款 Air 3 的雙攝系統,據稱主要在感測器尺寸方面有所改進(主攝換用 1 英寸底)。IT之家整理現款大疆 DJI Air 3 / Mavic 3 Pro 兩款無人機攝影模
首期研學!「長城娃娃」來啦! - 天天要聞

首期研學!「長城娃娃」來啦!

「爬長城累不累?還能再爬一次嗎?爬長城都累,建長城累不累?你們都知道哪些關於長城的故事和傳說呢?」近日,一場特殊的「長城娃娃」長城尋夢·研學之旅在渤海鎮辛營村開展,來自福建的研學團在長城國際文化村辛營古城為畢業之旅畫上了完美的句號。上午,同學們沿著長城漫步,感受了歷史的沉澱和歲月的痕迹。從雄偉的城牆...