AI智道:多模态推理技术突破,向车端场景延伸

2025年3月Google Gemini 2.5发布,可实现多模态融合推理;4-5月阶跃星辰、商汤、MiniMax先后发布多模态推理成果,我们认为技术进展意义在于:依托于多模态思维链的加入,多模态、推理模型两条主线正在实现架构统一,多模态理解能力迎来提振。近期,理想、蔚来等车端交互具备多模态推理落地场景,我们认为,技术架构的融合创新有望持续带来应用场景延伸,多模态推理主线值得关注。

多模态推理为2025大模型技术迭代重要方向,Google领衔、国内多成果发布。2025年3月,Google发布Gemini 2.5模型,原生支持文本、图像、音频、视频、代码库等输入类型,并能进行多模态融合推理,落地场景包括建筑风格询问、设备故障排查,在LMArena排行榜超越GPT-4.5和Claude 3.7。国内厂商在多模态推理范畴接连更新:2025年4月,阶跃星辰发布多模态推理模型Step-R1-V-Mini、商汤发布SenseNova V6模型,后者以多模态长思维链构建、多模态强化学习、多模态全局记忆的技术创新,实现多模态推理能力大幅进步,率先实现10分钟长视频理解。5月,MiniMax开源首个视觉RL统一框架V-Triune,能够使得VLM在后训练流程中,掌握视觉推理和感知的统一能力。

以MiniMax V-Triune新框架成果为例,推理感知统一框架在可拓展性、泛化性初步验证。V-Triune以三层组件架构实现视觉推理和感知任务统一至强化学习框架:1)多模态样本数据格式化;2)验证器奖励计算,采用异步客户端-服务器架构,奖励计算和主训练循环解耦;3)数据源级指标监控,便于溯源和提升稳定性。结合动态IoU奖励机制、冻结ViT参数等工程优化,Orsta系列模型(32B参数)在MEGA-Bench Core基准测试中实现了最高14.1%的性能提升。

多模态推理助力智能驾驶能力升阶。在智能驾驶场景,多模态推理是增强道路交通标志识别判断能力、提升复杂场景泛化性的重要途径,正成为头部智能驾驶企业算法演进的重点。2025年5月30日,蔚来世界模型NVM首个版本正式开启推送,具备全量理解、想象重构和推理能力,能够对实时环境多模信息进行理解和推演,在选择最优ETC车道通行、停车场自主寻路等场景的性能提升显著。此外,理想自研的VLA大模型亦具备思维链推理能力,以多模态推理模拟人类驾驶员的思维运作方式。

图表1:MiniMax多模态RL成果V-Triune模型三层架构

AI智道:多模态推理技术突破,向车端场景延伸

资料来源:One RL to See Them All: Visual Triple Unified Reinforcement Learning https://arxiv.org/abs/2505.18129,中金公司研究部

图表2:基于开源的Qwen2.5-VL,MiniMax训练出7B和32B的Orsta模型,经过推理、感知任务训练数据,进行规则和难度的两阶段过滤、训练优化

AI智道:多模态推理技术突破,向车端场景延伸

资料来源:One RL to See Them All: Visual Triple Unified Reinforcement Learning https://arxiv.org/abs/2505.18129,中金公司研究部

图表3:基于开源的Qwen2.5-VL,在MEGA-Bench Core基准测试中,Orsta 32B相比原始模型提升14.1%

AI智道:多模态推理技术突破,向车端场景延伸

资料来源:One RL to See Them All: Visual Triple Unified Reinforcement Learning https://arxiv.org/abs/2505.18129,中金公司研究部

图表4:蔚来NVM模型的实时推理能力

AI智道:多模态推理技术突破,向车端场景延伸

资料来源:蔚来官方公众号,中金公司研究部

风险

AI应用开发不及预期;行业竞争加剧。

本文摘自中金公司2025年6月2日已经发布的《AI智道(9):多模态推理技术突破,向车端场景延伸》

于钟海 分析员 SAC 执证编号:S0080518070011 SFC CE Ref:BOP246

魏鹳霏 分析员 SAC 执证编号:S0080523060019 SFC CE Ref:BSX734

肖楷 分析员 SAC 执证编号:S0080523060007 SFC CE Ref:BUF316

赵丽萍 分析员 SAC 执证编号:S0080516060004 SFC CE Ref:BEH709

主题测试文章,只做测试使用。发布者:北方经济网,转转请注明出处:https://www.hujinzicha.net/26504.html

(0)
北方经济网的头像北方经济网
上一篇 2025年6月3日 下午2:29
下一篇 2025年6月3日

相关推荐

  • 隔夜美股全复盘(4.30) | 禾赛涨逾18%,与可庭科技在智能庭院机器人领域展开深度合作

    01 大盘 昨夜美股三大股指收涨。截至收盘,道指涨 0.75%,纳指跌 0.55%,标普涨 0.58%。美国十年国债收益率跌 0.855%,收报4.174%,相较两年期国债收益率差52个基点。恐慌指数VIX涨 3.9%至24.17,布伦特原油收跌 2.51%至63。现货黄金昨日跌 0.8%,报3317.06美元/盎司。美元指数昨日涨 0.28%,报99.21…

    2025年4月30日
    6700
  • 平安证券:一季度主要商品出口拉动减弱

    核心观点 事项:以美元计价,2025年3月中国出口同比为12.4%,前值为2.3%;进口同比增长-4.3%,前值-8.4%。 中国出口增速在3月强劲反弹,受到春节错位的推升。将一季度合并来看,出口增速较去年四季度及全年已有回落,尤其是汽车、船舶、电子、主要原材料及劳动密集型商品出口增速回落,能够体现出口面临的边际调整压力。中国出口的挑战在于,年初以来美国对多…

    2025年4月15日
    6300
  • 中金:大缸径发动机乘AIDC基建东风,全产业链国产替代可期

    近年来,国内外头部云计算厂商持续加码AI基建。大缸径发动机是数据中心备用电源柴油发电机组的核心零部件,技术门槛较高,国产化率较低。我们认为,当下AIDC建设需求高增,数据中心用柴油发电机组及大缸径发动机迎来量价齐升机遇,全产业链国产替代已成趋势,建议关注自主品牌大缸径发动机厂商及其供应链厂商。 摘要 大缸径发动机高壁垒高价值,市场规模广阔。围绕核心部件气缸,…

    2025年5月28日
    2700
  • 出口下行期的配置思路

    投 资要点 1、按照出口增速和对经济贡献,我国过去一共经历了三轮较为典型的出口下行期,分别是2009-2014年、2016-2018年和2023年。 2、从经济的对冲部门来看,2009-2014年出口下行期是先基建、后制造业再基建,2016-2018年则是地产和消费,2023年是基建和消费。 3、出口下行期的政策应对上,往往是两头发力,一方面出口退税、优化贸…

    2025年4月28日
    4100
  • 2025年人形机器人商业化加速,重视分歧时刻的投资价值

    近日,人形机器人板块行情有所调整,我们认为重估中国科技、机器人产业趋势和下一阶段的密集催化未变,仍然坚定看好。前期市场或过度重视国外或国内的单一厂商,单一厂商无法代表全球人形机器人行业发展,行业整体加速发展,我们进一步上修2025年全球机器人出货量预期到2万台以上。资本开支竞赛已开始,2025年确立为“机器人”年,3月或将成为接下来最近的“机器人”月。商业化…

    商业 2025年3月25日
    4800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信