it之家 5 月 10 日消息,ibm 本月 2 日介绍了其 granite 4.0 系列模型中的最小版本之一:granite 4.0 tiny 的预览版本。
granite 4.0 tiny preview 的优势在于高计算效率和低内存需求:在 fp8 精度下,运行 5 个 128kb 上下文窗口的并发对话仅需 12gb 显存,一张建议零售价 329 美元(it之家注:现汇率约合 2383 元人民币)的英伟达 geforce rtx 3060 12gb 消费级显卡即可满足。
granite 4.0 tiny 计划的训练 token 数至少为 15t,目前 preview 预览版本仅训练了 2.5t,但已能提供与 12t 训练 token 的 granite 3.3 2b instruct 相当的性能,同时在 128kb 上下文窗口 16 并发会话下内存需求降低了约 72%,预计最终性能可与 granite 3.3 8b instruct 相当。
granite 4.0 tiny preview 的总参数规模为 7b,实际活动参数为 1b,其基于被 granite 4.0 系列全线采用的混合 mamba-2 / transformer 架构,结合了两者的速度与精度,降低了内存消耗而不明显损失性能。
granite 4.0 tiny 的预览版本现已在 hugging face 上以标准 apache 2.0 许可证提供,ibm 将于今年夏天正式推出 granite 4.0 系列模型的 tiny 和 small、medium 版本。