豆包視覺理解模型正式發布,千tokens輸入價格比行業價格便宜85%

在12月18日舉辦的火山引擎 Force 大會上,字節跳動正式發布豆包視覺理解模型,為企業提供極具性價比的多模態大模型能力。豆包視覺理解模型千tokens輸入價格僅為3厘,一元錢就可處理284張720P的圖片,比行業價格便宜85%,以更低成本推動AI技術普惠和應用發展。

更加強大,已進化為“六邊形戰士

與春季大會時相比,此次火山引擎宣布豆包大模型家族迎來了全面升級。對比5月15日發布以來,豆包通用模型pro在綜合能力上提升32%,數學能力提升43%,專業知識提升54%,推理能力提升13%。

而火山引擎公布的豆包大模型的tokens調用量增長也充分說明了其落地的廣泛和快速。豆包大模型自發布以來,其日均tokens調用量呈現快速增長的趨勢。截至12月15號,豆包大模型日均tokens使用量突破4萬億,自發布以來7個月的時間裡增長超過33倍。

豆包也發布了視覺理解模型,它可以被看作是字節跳動豆包大模型家族中的視覺理解專家。作為一款多模態基礎模型,它擅長處理複雜視覺任務,如圖像識別、物體檢測及場景理解,確保對圖像信息的全面捕捉與理解。這個模型對視覺內容中呈現的知識、文化背景、狀態、情緒、數量、性質、位置等信息有更好的識別能力,可更好地基於指令進行視覺內容識別,並對中國傳統文化信息有更強的理解。在教育、旅遊、電商購物等多個領域,該模型展現出廣泛的應用潛力。

火山引擎總裁譚待

火山引擎總裁譚待表示,豆包視覺理解模型不僅具有高精度識別視覺內容的能力,還展現了出色的理解與推理能力。它能夠基於圖像信息進行複雜的邏輯運算,勝任諸如分析圖表、處理代碼以及解答學科問題等多種任務。目前,這一模型已成功接入豆包App及PC端產品中。

此外,在音樂大模型和文生圖大模型方面,也實現了大幅度的升級。豆包音樂大模型如今能夠根據描述或圖片自動生成3分鐘,結構完整的音樂作品,並支持10餘種不同的風格和情緒的隨心選。

升級後的文生圖大模型包括一鍵P圖和一鍵海報兩大亮點功能。前者是基於國內率先實現產品化的通用圖像編輯模型,文生圖模型零樣本穩定跟隨用戶需求編輯圖片,同時增強了響應能力和保持能力。它提出了SeedEdit框架,不引入新的參數將圖像生成擴散模型轉換為圖像編輯模型。

後者是基於原生具備文字渲染能力的文生圖模型,通過打通LLM和DIT構架,構建高質量文字渲染數據,大幅提升文字生成準確率,尤其是結構更複雜、字符數量更加龐大的中文漢字場景。它具有原生的文字渲染能力,文字與整體畫面的融合更為圓融,天生自然。

更易落地,對企業用戶更加“親切”

對於大多數希望接入AI的企業和團體來說,“落地”始終是一個核心痛點,而火山引擎則在各個方面都降低了AI接入和使用的門檻,大大降低了落地難度,對企業用戶而言顯得更加“親切”。

例如,AI應用開發平台“扣子”發布1.5升級版本,提供全新的應用開發環境,支持GUI搭建界面,並且可以一鍵發布為小程序 、H5、API等多種應用形態。並且,扣子還增強了多模態能力,通過智能語音OpenAPI,在語音識別和合成方面進行了全面升級,並且與火山引擎視頻雲的RTC集成,提供了高質量的實時語音通話能力。這使得智能體不僅能夠“說話”,還能“交流”,並且可以輕鬆與各種硬件集成,增強智能體與物理世界的互動。

此外,扣子1.5還推出了模板商店,提供了大量可一鍵複製的精品模板,進一步降低了構建AI應用的難度。

除了扣子,火山引擎還發布了企業專屬AI應用開發平台HiAgent1.5版本,通過多方面能力升級,助力企業敏捷構建AI能力中心。例如,hiagent更懂AI轉型,提供100+行業應用模板,讓企業開箱即用,並提供配套AI諮詢幫助企業找到AI落地路徑;同時,HiAgent可以與企業現有系統,如CRM、IM、OA或垂直領域系統集成、打通和交互,可以把企業內部或外部的系統接口、工具等封裝為插件,沉澱為企業的插件中心/工具集市場,供各智能體調用並實現智能體和現有業務系統產生交互和集成。

並且,HiAgent提供更強的知識融合能力,通過graphRAG幫助企業打造AI知識助手,讓知識檢索更精準、知識回答更豐富、知識管理可視化,幫助企業打造自己的AI能力中心並做深做厚。

此外,火山引擎還發布和升級了一系列強大的AI工具和產品,例如,如一站式大模型服務平台火山方舟發布了AI搜推引擎、模型記憶應用產品,火山引擎雲基礎設施服務打造了以AI負載為中心的AI Infra,從雲原生步入到AI 雲原生,為新AI時代提供計算效率新範式。對於大多數企業用戶而言,這些工具和產品的使用門檻更低,價格更低,使用效果也更直觀,是開始接入AI的理想選擇。

已落地多個行業,取得初步成果

目前,火山引擎的豆包大模型已經在多個行業落地,而獲得的反饋和成果都很好。例如在汽車行業,在春季大會上火山引擎聯手聯盟夥伴成立了“汽車大模型生態聯盟”,聯盟成員包括多家知名車企和汽車相關企業,希望基於“汽車大模型生態聯盟”,圍繞汽車大模型應用場景及路徑、汽車大模型行業標準、汽車大模型評估體系建設落地,行業白皮書發布等方向為汽車行業創新合作發展帶來新模式。如今,火山引擎已經與梅賽德斯奔馳廣汽、上汽、賽力斯領克等多家企業實現合作,大大提升了智能汽車的AI能力,提升了用戶滿意度。

在金融行業的數字化轉型進程中,大模型技術經過一年的初步嘗試與快速發展,正逐步在金融領域實現落地應用。在這一轉型過程中,智能體作為一種關鍵性的連接工具,起到了將複雜模型與實際應用場景有效對接的重要作用,被視為推動金融行業智能化升級的一個重要方向。

火山引擎通過扣子和HiAgent兩大智能體開發平台,以及豆包App等生態資源,為華泰證券、國信證券、招商銀行等多家金融機構的大模型落地提供了有力支撐。這些金融機構藉助火山引擎的技術優勢,積極探索智能體的創新應用,推動了自身業務的智能化升級。

以華泰證券為例,其推出的“華泰股市助手”智能體在豆包APP及扣子平台上線後,迅速吸引了大量用戶的關注和使用,對話人數持續攀升,顯示出智能體在金融領域的應用潛力和市場接受度。招商銀行作為業內首家將智能體引入豆包App的金融機構,其高層對智能體的價值給予了高度評價,體現了金融機構對智能化轉型的積極態度和前瞻性布局。

此外,國信證券等金融機構也已完成智能體平台的建設,為未來的智能化服務奠定了堅實基礎。同時,一些消費金融公司、銀行金科企業等中小金融機構也開始利用智能體進行小成本嘗試,探索適合自身發展的智能化路徑。

火山引擎在教育行業擁抱大模型的嘗試中也提供了一些助力,浙江大學南開大學同濟大學等知名學府的合作,展現了其AI技術在教育領域的應用潛力。

在浙江大學,火山引擎為師生們提供了一個AI“搭子”,通過先進的AI技術,助力教學和科研的智能化升級。這一合作不僅提升了教學資源的整合效率,還為師生們帶來了更加個性化的學習體驗。

與南開大學的合作更是樹立了全國“AI+教育”的新典範。火山引擎助力南開大學打造了國內首個全面融合大模型能力的智慧校園,通過落地一批試點“AI+教育”場景化應用,顯著提升了教學質量、科研效率和管理服務水平。雙方協同研發的南開大學大模型應用開發平台,更是讓使用大語言模型變得簡單、易用,為學校的數字化轉型注入了強勁動力。

同時,同濟大學在5月發布了《人工智能賦能學科創新發展行動計劃(2024-2027)》,將在加強人工智能學科建設,系統性推動人工智能賦能學科創新發展,賦能人才培養、科學研究、社會服務、國際合作、數字校園等領域實現全方位高質量發展。基於AI全面賦能"學科專業轉型升級"、"教學管評創新應用"、"智慧校園科學決策"的新認識,同濟大學與火山引擎達成了合作,通過HiAgent平台構建AI應用服務於師生,同時為同濟師生進行AI通識的培養,提供低門檻的智能體平台幫助師生進一步掌握AI相關知識與技能,為 “人人學 AI” 提供了便利的途徑。

結語:

AI的出現,正與當年的互聯網一樣,已經在深刻改變着社會和千行百業,也改變着我們的生活方式。AI大模型如今在各行業的應用和落地還面臨著不少挑戰,如何將強大的AI以更加平易近人的方式來落地,是所有科技企業需要研討的問題。而“強大且親切”的豆包大模型,為我們提供了一種可行的思路。