240元打造擅长数学的多模态版R1,基于DeepSeek核心思想

2025年03月20日17:00:20 教育 5208

lmm-r1团队 投稿
量子位 | 公众号 qbitai

多模态大模型虽然在视觉理解方面表现出色,但在需要深度数学推理的任务上往往力不从心,尤其是对于参数量较小的模型来说更是如此。

如何让小型多模态大模型也能拥有强大的数学推理能力呢?

如图所示,通过lmm-r1框架训练的模型(下侧)能够正确应用勾股定理计算出圆锥的斜高,而基准模型(上侧)错误地识别了斜高位置,导致计算错误。这种显著的推理能力提升来自于一个创新的两阶段训练策略。

240元打造擅长数学的多模态版R1,基于DeepSeek核心思想 - 天天要闻

这是来自东南大学香港中文大学、蚂蚁集团等研究人员的,两阶段多模态基于规则强化学习的框架lmm-r1,实现多模态大模型的推理性能飞跃。

针对多模态领域长期存在的”高训练成本、低任务泛化”难题,lmm-r1框架创造性引入规则化奖励函数机制。

通过深度优化deepseek-r1核心思想,该框架在无需多模态标注数据的情况下,仅需240元gpu成本即可显著增强模型性能,成功将多模态模型的推理能力提升至工业级应用标准。

实验数据显示,经lmm-r1框架强化的qwenvl-2.5-3b模型,在推箱子等复杂路径规划任务中,性能显著超越gpt-4o、claude3.5等100b+参数量产品级大模型。

从文本到多模态的推理能力迁移

deepseek-r1和openai的o1等模型已经证明了基于规则奖励的强化学习在纯文本大语言模型中的有效性。然而,将这一成功经验扩展到多模态领域面临两大关键挑战:

  1. 数据限制:多模态领域中高质量的推理数据十分稀缺,且答案常常模糊不清,难以用于规则奖励

  2. 基础推理能力薄弱:多模态预训练常常会削弱模型在纯文本任务上的能力,特别是对于参数量有限的小模型

针对这些挑战,研究团队提出了lmm-r1框架,通过创新的两阶段训练策略巧妙解决了以上问题。

lmm-r1:两阶段强化学习策略

240元打造擅长数学的多模态版R1,基于DeepSeek核心思想 - 天天要闻

lmm-r1框架包含两个精心设计的阶段:

第一阶段:基础推理增强(fre)

fre阶段利用丰富的高质量纯文本推理数据(如数学题、科学问题等)通过基于规则的强化学习来增强模型的基础推理能力。这一阶段避开了多模态数据的限制,专注于构建坚实的推理基础。

在这个阶段,模型学习如何进行严密的逻辑思考、复杂的数学运算和多步骤推理,为后续的多模态泛化奠定基础。

第二阶段:多模态泛化训练(mgt)

mgt阶段将第一阶段培养的推理能力泛化到多模态领域。研究团队在这一阶段探索了几个关键领域:

  1. 几何推理领域:使用geodb等数据集,增强模型在几何图形推理方面的能力

  2. 感知-推理平衡领域:使用vermulti数据集,提升模型在多种视觉任务中的推理能力

  3. 智能体相关领域:使用推箱子(sokoban)等需要复杂规划的任务

值得注意的是,这种两阶段策略避免了对昂贵的高质量多模态训练数据的依赖,同时有效利用了丰富的文本推理数据资源,为构建高性能多模态模型提供了一种高效路径。

实验结果

研究团队使用qwen2.5-vl-instruct-3b作为基准模型进行实验。经过lmm-r1框架训练后,模型在各类基准测试上均取得显著提升:

240元打造擅长数学的多模态版R1,基于DeepSeek核心思想 - 天天要闻

  • 在纯文本和多模态基准测试上平均提升约4.5%~4.8%

  • 在推理密集型任务(如几何问题)上效果尤为明显

更重要的是,实验证明了一个关键发现:通过先增强基础推理能力再进行多模态泛化的策略,可以有效避免直接在多模态数据上训练时常见的推理能力退化问题。

在典型智能体应用场景验证中,研究团队选取推箱子任务作为评估基准。该任务要求模型同步处理视觉空间解析、目标匹配、动态路径规划等多模态推理能力,对智能体在现实场景中的决策能力具有重要指示意义。经lmm-r1框架强化后的模型,仅通过初始画面即可完成完整动作序列规划。

240元打造擅长数学的多模态版R1,基于DeepSeek核心思想 - 天天要闻

实验证明哪怕是3b规模的小模型,使用lmm-r1的两阶段rl训练,也可以极大增强推理能力,暗示了多模态r1的强大应用潜力。

240元打造擅长数学的多模态版R1,基于DeepSeek核心思想 - 天天要闻

值得关注的是,该框架以上游项目openrlhf为基础,实现了完全自主研发的多模态训练方案:通过重构数据流实现多模态支持,基于张量并行优化和内存管理技术创新,构建起高效稳定的训练体系。其开创性的packingsample + ring flashattention技术实现了模型最大上下文长度基于gpu数量的线性增长率,配合动态梯度裁剪策略,在保证训练稳定性的同时大幅降低资源消耗。

项目自2025年2月开源以来迅速获得学术界关注,相关技术方案已被多个知名开源项目采纳为基准架构。目前,lmm-r1框架已在github平台建立独立技术生态,累计获得超过500+星标关注。

团队表示将持续深耕多模态模型领域,推动多模态强化学习技术在智能体、视觉问答等场景的落地应用。与开源社区共建多模态强化学习框架。

论文地址:https://arxiv.org/abs/2503.07536项目主页:https://forjadeforest.github.io/lmm-r1-projectpage/项目地址:https://github.com/tidedra/lmm-r1

教育分类资讯推荐

潍坊青州市:公益课堂点亮孩子缤纷假期 - 天天要闻

潍坊青州市:公益课堂点亮孩子缤纷假期

来源:【青州融媒】暑假来临,潍坊青州市开设丰富多彩的暑期公益课堂,让孩子们收获知识与快乐。在青州市益都街道旗城社区,大学生志愿者带领孩子们通过共读绘本、互动游戏、情景模拟等方式,了解隐私保护与安全知识,提升自我保护意识。
湖北省第九届高校青年教师教学竞赛开赛 - 天天要闻

湖北省第九届高校青年教师教学竞赛开赛

7月9日,湖北省第九届高校青年教师教学竞赛决赛动员大会在中国地质大学(武汉)举行。本次决赛汇聚了来自全省54所高校的145名优秀青年教师代表,他们将在7月10日至11日的两天时间里,分成文科、理科、工科、医科、思想政治课等5个专项组,展开教
这样的“端姐”,谁能不喜欢? - 天天要闻

这样的“端姐”,谁能不喜欢?

在武汉市第一初级中学金雅校区,学生见到徐端,都会亲热地喊她“端姐”“老徐”。她懂孩子的心,乐于跟学生“打成一片”,是学生的良师,也是益友。徐端(右二)和学生在一起。记者刘嘉 摄跟着“端姐”学数学有很多乐趣,她能把数学课讲得像脱口秀一样好玩。
米东区开展学生军训教官培训 - 天天要闻

米东区开展学生军训教官培训

(米东区融媒体中心记者:安锐报道)近日,米东区人武部集中组织学生军训教官培训。米东区退役军人、基干民兵积极报名参加此次培训及资格认证,为即将到来的学生军训任务做好充分准备。
英语学习新赛道:奇速英语,开启你的词汇逆袭之旅 - 天天要闻

英语学习新赛道:奇速英语,开启你的词汇逆袭之旅

英语学习新赛道:奇速英语,开启你的词汇逆袭之旅在英语学习的漫漫长路上,词汇量就像基石,决定着英语能力这座高楼能盖多高。很多同学都在为记单词发愁,不是背了就忘,就是面对枯燥的单词书提不起兴趣。
最低录取控制线为615分,2025年太原中考录取分数线公布→ - 天天要闻

最低录取控制线为615分,2025年太原中考录取分数线公布→

7月10日,太原市招生考试管理中心发布公告,太原市2025年初中学业水平考试(以下简称“中考”)成绩于7月11日揭晓;普通高中录取不分批次,最低录取控制线为615分。有关事项公告如下:01成绩查询1.7月11日起,考生可登录“山西招生考试网
00后组团“打怪”!深港澳学生“揭榜”挑战企业技术难题 - 天天要闻

00后组团“打怪”!深港澳学生“揭榜”挑战企业技术难题

企业遇到技术难题,找谁解决?这次,深港澳三地的00后学生组团来“揭榜领题”了!7月10日,首届深港澳产教融合技术技能创新与应用大赛在深圳鹏城技师学院拉开帷幕,这场特别的比赛,让在校学生直接挑战企业抛出的真实技术“考题”。本次大赛由深圳市人社局、教育局、总工会联手打造,深圳市职工教育和职业培训协会承办,香...
枣庄职业学院:跨国联动,共启职教新篇章 - 天天要闻

枣庄职业学院:跨国联动,共启职教新篇章

6月27日,由枣庄职业学院与老挝巴巴萨技术学院联合主办的“老挝国家职业标准应用推广项目启动仪式暨导游员职业标准培训”通过线上方式成功举行。活动以“标准引领·实践协同”为主题,旨在推广中国职业教育标准,助力老挝旅游人才培养,深化中老职业教育合
杨素秋,履新职 - 天天要闻

杨素秋,履新职

日前,记者从可靠信源获悉,著有《世上为什么要有图书馆》一书作者、原陕西科技大学设计与艺术学院副教授杨素秋,现已履新西安戏剧学院副教授(专业技术职务)。