克雷西 發自 凹非寺
量子位 | 公眾號 qbitai
終於,5202年了,手機助手也乘著ai的快車,變得越來越好用了!
不僅內置了多模態大模型「大腦」,擁有超強的思考和對話能力,還長出了「眼睛」,可以看到屏幕內外的世界。
實際上,這正是此時此刻ai手機正在呼喚的一種全新交互方式,期待拉近人與設備之間的距離,期待讓交互變得更加自然。
手機之所以是現在這個形態,主要為了適應多點觸控的交互方式,從喬布斯時代、從觸屏誕生的那段時間開始就沒有過改變。
但能夠響應人的自然語言,和人溝通交互、理解並執行指令的助理,才是更加自然的交互方式。
而隨著多模態能力的解鎖,這種新的科技樹也被點亮,手機的軟硬體將被重塑。
讓手機成為你的專屬助理
以最早把「ai手機」這個概念打在公屏上的oppo為例,oppo把多模態能力引入到了小布助手當中,讓它不再只是一個對話機器,而是能夠更全方位地理解並處理人類的意圖。
通過語音、電源鍵和長按導航條這三種方式,我們就能把小布助手召喚出來,然後動動嘴就能向手機發號施令。
不妨先來通過「一鍵問屏」,看看小布助手的強大視覺本領和思考能力。
假如我們看到一棟建築(上海中心),想要知道它到底是什麼,那就可以叫小布助手出場了。
不用傳圖,也不用多解釋,召喚出小布助手後,直接問它這是啥,就能得到滿意的答案。
而且支持多輪對話,可以接著問這裡能不能參觀,有什麼值得看,甚至直接制定出一份旅遊攻略。
並且小布助手的這種視覺能力不僅能識別屏幕里的東西,還能藉助相機,「看」見身邊的一切。
假如我們看到了一堆植物(羽衣甘藍)十分好奇:
直接打開相機對準它,然後召喚出小布,讓它來告訴我們,而且還能接著追問,這東西能不能吃、怎麼吃才好吃。
再插播一句,超級小布助手是首家支持在相機界面做識屏問答的,後來很多友商也陸續推出類似功能,說明了小布助手的這種模式,是oppo的一次成功布局。
而且之所以敢叫超級小布助手,是因為它還有兩把刷子——不僅有「眼睛」能看、有「頭腦」會思考,還長出了「手腳」,能夠執行用戶指令。
還是拿一鍵問屏來舉例,假設量子位要從公司出發前往meet大會現場,那麼只要告訴小布助手,我要去屏幕上的這個地方,小布助手就會自動開啟導航。
既不用複製粘貼目的地地址,也不用手動設置,說一句話就能即刻出發。
總之呢,全面升級的超級小布助手,確實讓手機的使用方式變得和以前不一樣了。
有更多的用戶開始通過小布助手來進行手機的操縱,其中使用電源鍵喚起小布助手的相比前一代提升30%,電源鍵成為了小布助手喚起人數top1入口。
而且超級小布助手,還憑藉自身的超能力,順帶也完成了一波「用戶教育」的目的——
小布助手的強大能力,反向刺激了用戶的需求,光是一項識屏能力,就直接帶動了百科和教育類的問答需求提升。
用戶數據顯示,近30%的一鍵問屏用戶會在相機界面對準想要識別的內容後,直接喚起小布助手進行問答;70%的用戶會在多模態交互中使用通用問答的功能。
所以,超級小布助手如此神奇的超能力,到底是來自於哪裡呢?
背後是自研大模型和智慧框架
能聽、看、說、做的超級小布背後,是集語言、視覺、語音等多種模態於一體的oppo sensenow框架。
先說聽,這是我們和小布助手發生交互的第一個環節,sensenow框架集成了oppo自主研發的語音多級喚醒和個性化識別技術,使語音喚醒和識別的準確率達到97%以上。
sensenow框架通過檢索增強多模態理解技術,具備了「看」的能力,是sensenow智慧框架的核心,讓超級小布助手實現了圖文混合檢索,支持1000多種主體的識別。
像前面看到的一系列場景,超級小布助手能夠從根據看到的畫面回答我們各式各樣的問題,靠的都是這種多模態理解和檢索能力。
sensenow框架還集成了生成式語音合成框架,使超級小布助手能夠模擬真人語氣和節奏,並支持超過20種個性化音色。
可以說,oppo sensenow框架讓超級小布助手在看、聽、說上都表現得像一個真實的人,能夠幫助解答我們所見到的各種疑惑。
但oppo sensenow框架還有一大亮點,那就是擁有執行力。
就像前面看到的,只要給出一個指令,超級小布助手就會根據圖片中看到的地址喚起導航,按照時間信息加入日程表……
sensenow智慧框架可以融合語音、文本和圖片等不同類型的信息源,理解用戶的複雜意圖,完成跨應用的無縫操作。
超級小布支持超過1000+項用機指令,讓用戶只需要簡單的語音指令,就可以完成對應的手機設置或應用操作。
領先能力的背後,oppo擁有在多模態領域擁有領先的布局和前瞻性的思考,所以,全新升級的小布,在手機助手的多模態時代搶先佔據了一席之地。
多模態助手正在改變手機交互方式
小布助手是一個縮影,其所代表的多模態手機助手,正在改變著手機的交互方式。
比如相機實景持續問答——網路速度的提升和大模型能力的升級,多模態大模型可以支持實時的逐幀視覺識別和分析推理,根據攝像頭看到的景象和用戶像真人一樣交流,把電影《her》當中的場景搬進現實。
除了我們在大模型領域常見的多模態(文本、視覺、語音)之外,近年來智能感測器的技術也有了飛速的發展。
手機上除了常見的攝像頭、麥克風外,溫度、氣壓等感測器技術也正在逐漸成熟。
通過對更多維度的環境信息的感知,智能助手可以更清晰地理解用戶當前的狀態,通過簡單的指令就可以完成用戶需求。
舉個最簡單的例子,如果用戶問喉嚨不舒服怎麼辦,ai可以根據感測器獲得的體溫狀況、地理位置、天氣情況和環境的溫度濕度,綜合判斷給出諮詢建議,比如是要上加濕器,還是要找醫生尋求幫助。
並且隨著手機助手的不斷普及,未來像小布這樣搭載多模態能力的語音助手,將改變人與app的交互方式,隨著更多應用和服務api的接入,語音助手調用服務將更加高效和流暢。
並且未來還能夠實現跨越不同app的複雜操作,比如根據旅行攻略讓語音助手幫你完成沿途所有的行程/住宿和景點門票的預定安排。
在新的交互模式之下,語音助手不僅可以利用多模態信息推測人類意圖並調用適當服務,還可以利用記憶能力,了解你說話的風格,衣食住行的偏好,並基於當前的情況提供個性化服務推薦,變得更加專屬化、個性化。
想像一下,未來你掏出手機,簡單的一句話ai 就能為你完成所有的安排,那時的手機就像一個私人助理、像一個夥伴。
到那時,人與硬體之間的關係也將發生改變。
回到當下,超級小布助手作為oppo打出的一套ai組合拳中重要的一環,以多模態智能助理的形態,為打造更加智能化的ai系統、ai手機,徹底改變交互形態而鋪路。
毫無疑問,超級小布助手這種視覺感知+多模態智能交互的形式,正是這個方向之上誕生的一大成果。
同時,超級小布助手來自於oppo,來自於終端廠商,因此擁有系統層級的調度能力,這更是第三方智能助手類產品無法比擬的優勢。
並且用戶數據已經證明,超級小布助手正在逐漸重塑用戶的使用習慣,用技術的跨越倒逼用戶產生新的需求。
oppo希望,超級小布助手能夠成為實用專屬的ai夥伴。而目前市場表現看來,已經獲得了初步成果。
作為最早把ai手機打上公屏的手機玩家,oppo正在持續刷新移動交互形態,讓ai重塑手機能力和邊界。