2025年3月Google Gemini 2.5发布,可实现多模态融合推理;4-5月阶跃星辰、商汤、MiniMax先后发布多模态推理成果,我们认为技术进展意义在于:依托于多模态思维链的加入,多模态、推理模型两条主线正在实现架构统一,多模态理解能力迎来提振。近期,理想、蔚来等车端交互具备多模态推理落地场景,我们认为,技术架构的融合创新有望持续带来应用场景延伸,多模态推理主线值得关注。
多模态推理为2025大模型技术迭代重要方向,Google领衔、国内多成果发布。2025年3月,Google发布Gemini 2.5模型,原生支持文本、图像、音频、视频、代码库等输入类型,并能进行多模态融合推理,落地场景包括建筑风格询问、设备故障排查,在LMArena排行榜超越GPT-4.5和Claude 3.7。国内厂商在多模态推理范畴接连更新:2025年4月,阶跃星辰发布多模态推理模型Step-R1-V-Mini、商汤发布SenseNova V6模型,后者以多模态长思维链构建、多模态强化学习、多模态全局记忆的技术创新,实现多模态推理能力大幅进步,率先实现10分钟长视频理解。5月,MiniMax开源首个视觉RL统一框架V-Triune,能够使得VLM在后训练流程中,掌握视觉推理和感知的统一能力。
以MiniMax V-Triune新框架成果为例,推理感知统一框架在可拓展性、泛化性初步验证。V-Triune以三层组件架构实现视觉推理和感知任务统一至强化学习框架:1)多模态样本数据格式化;2)验证器奖励计算,采用异步客户端-服务器架构,奖励计算和主训练循环解耦;3)数据源级指标监控,便于溯源和提升稳定性。结合动态IoU奖励机制、冻结ViT参数等工程优化,Orsta系列模型(32B参数)在MEGA-Bench Core基准测试中实现了最高14.1%的性能提升。
多模态推理助力智能驾驶能力升阶。在智能驾驶场景,多模态推理是增强道路交通标志识别判断能力、提升复杂场景泛化性的重要途径,正成为头部智能驾驶企业算法演进的重点。2025年5月30日,蔚来世界模型NVM首个版本正式开启推送,具备全量理解、想象重构和推理能力,能够对实时环境多模信息进行理解和推演,在选择最优ETC车道通行、停车场自主寻路等场景的性能提升显著。此外,理想自研的VLA大模型亦具备思维链推理能力,以多模态推理模拟人类驾驶员的思维运作方式。
图表1:MiniMax多模态RL成果V-Triune模型三层架构
资料来源:One RL to See Them All: Visual Triple Unified Reinforcement Learning https://arxiv.org/abs/2505.18129,中金公司研究部
图表2:基于开源的Qwen2.5-VL,MiniMax训练出7B和32B的Orsta模型,经过推理、感知任务训练数据,进行规则和难度的两阶段过滤、训练优化
资料来源:One RL to See Them All: Visual Triple Unified Reinforcement Learning https://arxiv.org/abs/2505.18129,中金公司研究部
图表3:基于开源的Qwen2.5-VL,在MEGA-Bench Core基准测试中,Orsta 32B相比原始模型提升14.1%
资料来源:One RL to See Them All: Visual Triple Unified Reinforcement Learning https://arxiv.org/abs/2505.18129,中金公司研究部
图表4:蔚来NVM模型的实时推理能力
资料来源:蔚来官方公众号,中金公司研究部
风险
AI应用开发不及预期;行业竞争加剧。
本文摘自中金公司2025年6月2日已经发布的《AI智道(9):多模态推理技术突破,向车端场景延伸》
于钟海 分析员 SAC 执证编号:S0080518070011 SFC CE Ref:BOP246
魏鹳霏 分析员 SAC 执证编号:S0080523060019 SFC CE Ref:BSX734
肖楷 分析员 SAC 执证编号:S0080523060007 SFC CE Ref:BUF316
赵丽萍 分析员 SAC 执证编号:S0080516060004 SFC CE Ref:BEH709
主题测试文章,只做测试使用。发布者:北方经济网,转转请注明出处:https://www.hujinzicha.net/26504.html