中信证券:推理模式持续进化,Agent落地值得关注

北京时间5月23日凌晨,Anthropic在其首届开发者大会中正式发布Claude 4系列混合推理模型。该系列模型主要亮点在于:1)可连续执行7小时复杂任务,推理能力优秀且稳定;2)已支持Agent编程产品和Agent开发平台。投资层面看,Claude 4稳定的推理能力的进步有效的开阔了大模型的应用场景;Agent产品的不断探索与成熟也为AI商业化夯实基础。随着通用推理能力的进步,中信证券认为AI爆款应用有望从科研、编程等高价值场景起率先解锁,软件、互联网有望受益;除去应用端的投资机会,硬件端的需求也会随着多模态的技术的进步与应用而不断提高,中期维度,中信证券仍持续看好 AI 算力板块的投资机会。

事项:

北京时间5月23日凌晨,Anthropic在其首届开发者大会中正式发布Claude 4系列混合推理模型。该系列模型包括旗舰模型Claude Opus 4和主力模型Claude Sonnet 4。根据Anthropic官网,该系列模型的主要亮点在于:1)可以连续执行7小时复杂任务,展现出优秀推理能力;2)已支持Agent编程产品和Agent开发平台。根据Anthropic官网,Claude 4系列模型还同步推出了如下新功能:1)工具辅助的延伸思考(测试版):Claude 模型在进行深入思考时,能够交替使用工具(如网页搜索),以优化推理过程和回复质量;2)新增模型能力:两款模型可并行使用工具,执行更精确的指令,并在开发者授权下,提升记忆能力,能提取并保存关键信息,保持上下文连贯;4)新的 API 功能:Anthropic API 新增四项功能,包括代码执行工具、MCP 连接器、文件 API 和最长可缓存 1 小时的提示缓存功能。

▍模型性能:编程场景表现行业领先,基准测试表现仍有一定提升空间。

根据Anthropic官网,在编程这一特定场景中,Claude 4居于行业领先地位,在代码测试SWE-bench Verified中,Opus 4和Sonnet 4得分分别为79.4%和80.2%,显著高于o3(69.1%)、GPT-4.1(54.6%)和Gemini 2.5 Pro(63.2%);在代理终端编程测试Agentic terminal coding中,Opus 4和Sonnet 4得分分别为50%和41.3%,显著高于o3(30.3%)、GPT-4.1(30.3%)和Gemini 2.5 Pro (25.3%)。而在基准测试场景,Claude 4在推理测试和问答测试场景中表现亮眼,数学测试仍有提升空间。在推理测试场景GPQA中,Opus 4和Sonnet 4得分分别为83.3%和83.8%,与OpenAI o3(83.3%)和Gemini 2.5 Pro(83.0%)水平相当;在问答测试场景中MMMLU中,Opus 4和Sonnet 4得分分别为88.8%和86.5%,与OpenAI o3(88.8%)水平相当;在数学测试AIME 2025中,在不进行多次尝试情况下,Opus 4和Sonnet 4得分分别为75.5%和70.5%,低于o3(88.9%)和Gemini 2.5 Pro (83.0%);在进行多次尝试后Opus 4和Sonnet 4的得分分别提升至90.0%和85.0%。

▍市场定位:长时间稳定复杂任务处理能力赋能Agent产品,旗舰模型推理成本期待优化。

根据Anthropic官网,Claude 4在一项高要求的开源重构任务中连续稳定的运行了7个小时,性能表现出色,为Agent产品在编程场景的铺开创造了可能。目前Claude 4已经被Github Copilot选为了新一代产品的基座模型。定价方面:1)C端产品:Claude 4 Opus将向付费订阅用户开放,目前Claude系列模型的付费用户收费标准为专业版20美元/月(年度订阅折扣后为200美元/年),Max版收费为100美元/月;而Claude Sonnet 4可对免费用户开放。2)B端产品:目前Claude Opus 4定价为输入15美元/百万Token,输出75美元/百万Token,价格高于o3(输入10美元/百万Token,输出为40美元/百万Token);Claude Sonnet 4定价为输入3美元/百万Token,输出15美元/百万Token,与前代产品Claude 3.7 Sonnet持平,接近于Gemini 2.5 Pro (输入2.5美元/百万Token,输出15美元/百万Token)。

▍趋势展望:推理模式持续进化,Agent落地值得关注。

根据Anthropic官网,Claude 4是一个混合推理模型,即模型可提供2种模式:即时的反应模式和深入推理的扩展思考模式。根据微软研究院于2025年5月发布的论文《Think Only When You Need with Large Hybrid-Reasoning Models》(Jiang L, Wu X,和Huang S等,2025),当前的大型推理模型(如OpenAI o3和DeepSeek R1等)都存在过度思考的问题,即在简单任务上进行了冗长分析,不仅浪费计算资源,还破坏了用户体验。而这篇论文发现,通过使用混合微调(Hybrid Fine-Tuning,HFT)和混合组策略优化(Hybrid Group Policy Optimization,HGPO)手段,不仅可以减少计算资源的消耗,而且可以有效提升模型在推理密集型任务和通用下游任务上的性能。此外,Agent的落地探索也在持续。根据各公司官网,此前推出Agent产品的厂商主要为Salesforce和ServiceNow等软件厂商,而最近1个月内亮相的编程场景Agent包括OpenAI的Codex、Google的Jules和Anthropic的Claude Code。此外,Anthropic还发布了Claude Code SDK以支持用户基于Claude Code自行构建Agent。

▍风险因素:

AI核心技术发展不及预期风险;科技领域政策监管持续收紧风险;私有数据相关的政策监管趋严风险;全球宏观经济复苏不及预期风险;宏观经济波动导致欧美企业IT支出不及预期风险;AI潜在伦理、道德、用户隐私风险;企业数据泄露、信息安全风险;行业竞争持续加剧风险等。

▍投资策略:

本次Claude 4的更新不再是单单围绕底层算法层面,而是同步在应用层面取得进步,Agent产品与Agent开发平台的推出均是AI商业化落地的重要探索。从技术角度,Claude 4此类混合推理模型的基础能力在强化学习方法加持下在得到显著提升,表明模型仍在持续进步。应用层面,Claude 4稳定的推理能力的进步有效的开阔了大模型的应用场景。随着底层算法能力提升带来的通用推理能力的进步,中信证券认为AI爆款应用有望从科研、编程等高价值场景起率先解锁,软件、互联网有望受益;除去应用端的投资机会,硬件端的需求也会随着多模态的技术的进步与应用而不断提高,中期维度,中信证券仍持续看好 AI 算力板块的投资机会。

注:本文节选自中信证券研究部已于2025年5月25日发布的《前瞻研究行业全球AI人工智能产业重大事项点评—Claude 4发布,Agent能力内化并实现7小时复杂任务稳定推理》报告,分析师:陈俊云S1010517080001;贾凯方S1010522080001;高飞翔S1010523060003;许英博S1010510120041

主题测试文章,只做测试使用。发布者:北方经济网,转转请注明出处:https://www.hujinzicha.net/25179.html

(0)
北方经济网的头像北方经济网
上一篇 2025年5月27日 下午6:53
下一篇 2025年5月27日 下午6:54

相关推荐

  • 如何解读6月MLF操作?

    2025年6月MLF维持超额续作,净投放1180亿元。当月MLF以及买断式逆回购均维持了资金净投放,实现了长端流动性的净供给。6月存单利率中枢下行,多重价位中标机制下,不排除MLF中标利率下行的可能性。总量工具观察期,维持流动性充裕诉求下,预计MLF、买断式逆回购等常规流动性工具将维持净投放。 ▍事项: 2025年6月24日,央行发布中期借贷便利招标公告称,…

    商业 2025年6月26日
    3800
  • 铜金比:历史的启事

    核心观点 当前无论是从流动性还是经济基本面出发,铜面临的外部环境均好于16年7月的极值,我们认为铜金比存在向上修复的空间。而从黄金的角度看,当下美国经济仍面临一定的下滑风险,在高偿息压力下联储难以再次转向紧缩性货币政策。同时美元信用的弱化与地缘冲突的加剧有望持续推升央行购金需求,推动金价上行。因此我们认为,本轮金价出现趋势性反转的概率较小,极端铜金比的修复大…

    商业 2025年3月25日
    7800
  • 银行股再次上涨!还能做多吗?

    近期银行股开始不断的有动作,整个中证银行指数在6月4日上涨1.98%,这种涨幅对于超大盘银行来说是比较少见的,而且从月K线来看,指数也底部抬升达18个月。 银行股为何如此强势成为资金避风港?银行股还有没有修复空间? 图片来源于:同花顺 首先,关于银行股估值修复是否接近尾声?以中证银行指数为例,截至20250603指数整体pb0.68,相比2022年低点0.4…

    2025年6月10日
    4900
  • 早报 (05.08)| 连续第三次不降息!鲍威尔:特朗普施压无影响;超30万亿元公募基金业迎系统性改革;沪上阿姨暗盘涨幅超“雪王”

    美联储如期按兵不动,维持联邦基金利率目标区间在4.25%-4.5%不变。FOMC声明称,经济前景的不确定性进一步增加,失业率上升、通胀上升的风险都已经增加。重申最近指标显示经济活动仍稳健扩张,但指出净出口波动已影响数据。美联储宣布,将继续以3月会议宣布的更慢速度缩减资产负债表。 美联储主席鲍威尔表示,美联储可以耐心,无需急于降息,特朗普的表态“根本不会影响美…

    2025年5月8日
    6600
  • 股价跌超60%!Rocket基因疗法致患者死亡,FDA紧急叫停

    因一名患者死于严重并发症,美国食品药品管理局(FDA)宣布暂停了生物制药公司Rocket Pharma的Danon病基因疗法关键2期临床试验。 受此消息影响,周二Rocket股价出现断崖式下跌,较前一交易日跌超62%,今年迄今股价累计下跌超80%。 患者死亡,试验紧急叫停 5月27日,Rocket Pharmaceuticals公司(以下简称“Rocket”…

    2025年5月28日
    10300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信