蘋果、英偉達強強聯手，LLM 推理加速利器 ReDrafter 開源

分類：科技

瀏覽數：1523

2024-12-28

it之家 12 月 19 日消息，蘋果公司昨日（12 月 18 日）發佈博文，宣布和英偉達（nvidia）合作，通過開源 recurrent drafter（redrafter）推測解碼方法，顯著提升了 ai 大語言模型（llm）的推理速度。

蘋果公司表示 redrafter 已集成到 nvidia tensorrt-llm 推理加速框架中，在 nvidia gpu 上，每秒生成 tokens 速度最高提升 2.7 倍，有效降低了用戶延遲和計算成本。

蘋果的機器學習研究人員指出，llm 越來越多地用於驅動生產應用程序，提高推理效率對降低計算成本和用戶延遲至關重要。

it之家援引蘋果官方博文，redrafter 使用 rnn 草稿模型，結合波束搜索（beam search）與動態樹注意力（dynamic tree attention），可以讓開源模型每步生成最多 3.5 個 tokens，超越了先前推測性解碼技術的性能。

為將 redrafter 應用於生產環境，蘋果與 nvidia 展開合作，將其集成到 nvidia tensorrt-llm 框架中。

英偉達為此添加了新的運算符並公開了現有運算符，增強了 tensorrt-llm 對複雜模型和解碼方法的適應性。

基準測試結果顯示，在 nvidia gpu 上使用集成了 redrafter 的 tensorrt-llm 框架，數百億參數規模的生產模型的解碼速度提升了 2.7 倍。這不僅降低了用戶體驗延遲，還減少了 gpu 使用數量和功耗。

it之家附上參考地址

科技分類資訊推薦