it之家 5 月 10 日消息,ibm 本月 2 日介紹了其 granite 4.0 系列模型中的最小版本之一:granite 4.0 tiny 的預覽版本。
granite 4.0 tiny preview 的優勢在於高計算效率和低內存需求:在 fp8 精度下,運行 5 個 128kb 上下文窗口的並發對話僅需 12gb 顯存,一張建議零售價 329 美元(it之家註:現匯率約合 2383 元人民幣)的英偉達 geforce rtx 3060 12gb 消費級顯卡即可滿足。
granite 4.0 tiny 計劃的訓練 token 數至少為 15t,目前 preview 預覽版本僅訓練了 2.5t,但已能提供與 12t 訓練 token 的 granite 3.3 2b instruct 相當的性能,同時在 128kb 上下文窗口 16 並發會話下內存需求降低了約 72%,預計最終性能可與 granite 3.3 8b instruct 相當。
granite 4.0 tiny preview 的總參數規模為 7b,實際活動參數為 1b,其基於被 granite 4.0 系列全線採用的混合 mamba-2 / transformer 架構,結合了兩者的速度與精度,降低了內存消耗而不明顯損失性能。
granite 4.0 tiny 的預覽版本現已在 hugging face 上以標準 apache 2.0 許可證提供,ibm 將於今年夏天正式推出 granite 4.0 系列模型的 tiny 和 small、medium 版本。