蘋果、英偉達強強聯手,LLM 推理加速利器 ReDrafter 開源

it之家 12 月 19 日消息,蘋果公司昨日(12 月 18 日)發佈博文,宣布和英偉達(nvidia)合作,通過開源 recurrent drafter(redrafter)推測解碼方法,顯著提升了 ai 大語言模型(llm)的推理速度。

蘋果公司表示 redrafter 已集成到 nvidia tensorrt-llm 推理加速框架中,在 nvidia gpu 上,每秒生成 tokens 速度最高提升 2.7 倍,有效降低了用戶延遲和計算成本。

蘋果的機器學習研究人員指出,llm 越來越多地用於驅動生產應用程序,提高推理效率對降低計算成本和用戶延遲至關重要。

it之家援引蘋果官方博文,redrafter 使用 rnn 草稿模型,結合波束搜索(beam search)與動態樹注意力(dynamic tree attention),可以讓開源模型每步生成最多 3.5 個 tokens,超越了先前推測性解碼技術的性能。

為將 redrafter 應用於生產環境,蘋果與 nvidia 展開合作,將其集成到 nvidia tensorrt-llm 框架中。

英偉達為此添加了新的運算符並公開了現有運算符,增強了 tensorrt-llm 對複雜模型和解碼方法的適應性。

基準測試結果顯示,在 nvidia gpu 上使用集成了 redrafter 的 tensorrt-llm 框架,數百億參數規模的生產模型的解碼速度提升了 2.7 倍。這不僅降低了用戶體驗延遲,還減少了 gpu 使用數量和功耗。

it之家附上參考地址