中信证券:推理模式持续进化,Agent落地值得关注

北京时间5月23日凌晨,Anthropic在其首届开发者大会中正式发布Claude 4系列混合推理模型。该系列模型主要亮点在于:1)可连续执行7小时复杂任务,推理能力优秀且稳定;2)已支持Agent编程产品和Agent开发平台。投资层面看,Claude 4稳定的推理能力的进步有效的开阔了大模型的应用场景;Agent产品的不断探索与成熟也为AI商业化夯实基础。随着通用推理能力的进步,中信证券认为AI爆款应用有望从科研、编程等高价值场景起率先解锁,软件、互联网有望受益;除去应用端的投资机会,硬件端的需求也会随着多模态的技术的进步与应用而不断提高,中期维度,中信证券仍持续看好 AI 算力板块的投资机会。

事项:

北京时间5月23日凌晨,Anthropic在其首届开发者大会中正式发布Claude 4系列混合推理模型。该系列模型包括旗舰模型Claude Opus 4和主力模型Claude Sonnet 4。根据Anthropic官网,该系列模型的主要亮点在于:1)可以连续执行7小时复杂任务,展现出优秀推理能力;2)已支持Agent编程产品和Agent开发平台。根据Anthropic官网,Claude 4系列模型还同步推出了如下新功能:1)工具辅助的延伸思考(测试版):Claude 模型在进行深入思考时,能够交替使用工具(如网页搜索),以优化推理过程和回复质量;2)新增模型能力:两款模型可并行使用工具,执行更精确的指令,并在开发者授权下,提升记忆能力,能提取并保存关键信息,保持上下文连贯;4)新的 API 功能:Anthropic API 新增四项功能,包括代码执行工具、MCP 连接器、文件 API 和最长可缓存 1 小时的提示缓存功能。

▍模型性能:编程场景表现行业领先,基准测试表现仍有一定提升空间。

根据Anthropic官网,在编程这一特定场景中,Claude 4居于行业领先地位,在代码测试SWE-bench Verified中,Opus 4和Sonnet 4得分分别为79.4%和80.2%,显著高于o3(69.1%)、GPT-4.1(54.6%)和Gemini 2.5 Pro(63.2%);在代理终端编程测试Agentic terminal coding中,Opus 4和Sonnet 4得分分别为50%和41.3%,显著高于o3(30.3%)、GPT-4.1(30.3%)和Gemini 2.5 Pro (25.3%)。而在基准测试场景,Claude 4在推理测试和问答测试场景中表现亮眼,数学测试仍有提升空间。在推理测试场景GPQA中,Opus 4和Sonnet 4得分分别为83.3%和83.8%,与OpenAI o3(83.3%)和Gemini 2.5 Pro(83.0%)水平相当;在问答测试场景中MMMLU中,Opus 4和Sonnet 4得分分别为88.8%和86.5%,与OpenAI o3(88.8%)水平相当;在数学测试AIME 2025中,在不进行多次尝试情况下,Opus 4和Sonnet 4得分分别为75.5%和70.5%,低于o3(88.9%)和Gemini 2.5 Pro (83.0%);在进行多次尝试后Opus 4和Sonnet 4的得分分别提升至90.0%和85.0%。

▍市场定位:长时间稳定复杂任务处理能力赋能Agent产品,旗舰模型推理成本期待优化。

根据Anthropic官网,Claude 4在一项高要求的开源重构任务中连续稳定的运行了7个小时,性能表现出色,为Agent产品在编程场景的铺开创造了可能。目前Claude 4已经被Github Copilot选为了新一代产品的基座模型。定价方面:1)C端产品:Claude 4 Opus将向付费订阅用户开放,目前Claude系列模型的付费用户收费标准为专业版20美元/月(年度订阅折扣后为200美元/年),Max版收费为100美元/月;而Claude Sonnet 4可对免费用户开放。2)B端产品:目前Claude Opus 4定价为输入15美元/百万Token,输出75美元/百万Token,价格高于o3(输入10美元/百万Token,输出为40美元/百万Token);Claude Sonnet 4定价为输入3美元/百万Token,输出15美元/百万Token,与前代产品Claude 3.7 Sonnet持平,接近于Gemini 2.5 Pro (输入2.5美元/百万Token,输出15美元/百万Token)。

▍趋势展望:推理模式持续进化,Agent落地值得关注。

根据Anthropic官网,Claude 4是一个混合推理模型,即模型可提供2种模式:即时的反应模式和深入推理的扩展思考模式。根据微软研究院于2025年5月发布的论文《Think Only When You Need with Large Hybrid-Reasoning Models》(Jiang L, Wu X,和Huang S等,2025),当前的大型推理模型(如OpenAI o3和DeepSeek R1等)都存在过度思考的问题,即在简单任务上进行了冗长分析,不仅浪费计算资源,还破坏了用户体验。而这篇论文发现,通过使用混合微调(Hybrid Fine-Tuning,HFT)和混合组策略优化(Hybrid Group Policy Optimization,HGPO)手段,不仅可以减少计算资源的消耗,而且可以有效提升模型在推理密集型任务和通用下游任务上的性能。此外,Agent的落地探索也在持续。根据各公司官网,此前推出Agent产品的厂商主要为Salesforce和ServiceNow等软件厂商,而最近1个月内亮相的编程场景Agent包括OpenAI的Codex、Google的Jules和Anthropic的Claude Code。此外,Anthropic还发布了Claude Code SDK以支持用户基于Claude Code自行构建Agent。

▍风险因素:

AI核心技术发展不及预期风险;科技领域政策监管持续收紧风险;私有数据相关的政策监管趋严风险;全球宏观经济复苏不及预期风险;宏观经济波动导致欧美企业IT支出不及预期风险;AI潜在伦理、道德、用户隐私风险;企业数据泄露、信息安全风险;行业竞争持续加剧风险等。

▍投资策略:

本次Claude 4的更新不再是单单围绕底层算法层面,而是同步在应用层面取得进步,Agent产品与Agent开发平台的推出均是AI商业化落地的重要探索。从技术角度,Claude 4此类混合推理模型的基础能力在强化学习方法加持下在得到显著提升,表明模型仍在持续进步。应用层面,Claude 4稳定的推理能力的进步有效的开阔了大模型的应用场景。随着底层算法能力提升带来的通用推理能力的进步,中信证券认为AI爆款应用有望从科研、编程等高价值场景起率先解锁,软件、互联网有望受益;除去应用端的投资机会,硬件端的需求也会随着多模态的技术的进步与应用而不断提高,中期维度,中信证券仍持续看好 AI 算力板块的投资机会。

注:本文节选自中信证券研究部已于2025年5月25日发布的《前瞻研究行业全球AI人工智能产业重大事项点评—Claude 4发布,Agent能力内化并实现7小时复杂任务稳定推理》报告,分析师:陈俊云S1010517080001;贾凯方S1010522080001;高飞翔S1010523060003;许英博S1010510120041

主题测试文章,只做测试使用。发布者:北方经济网,转转请注明出处:https://www.hujinzicha.net/25179.html

(0)
北方经济网的头像北方经济网
上一篇 2025年5月27日 下午6:53
下一篇 2025年5月27日 下午6:54

相关推荐

  • 天风策略:市场后续主线的进一步思考

    核心观点 在特朗普 2.0 时期,天风研究判断政策驱动、地缘博弈格局驱动、产业驱动的逻辑可以构成长期逻辑。消费的长期逻辑为政策加码预期下的重估预期,基本面拐点或已经出现,宏观数据呈现诸多积极信号。自主可控的长期逻辑为国家政策多年布局下的积累和顶层设计的重视,以及国内供给替代原先对美进口的供给的国产替代逻辑。 摘要 核心结论:市场在磨底期筛选出的行业或可以作为…

    商业 2025年5月12日
    10500
  • 只有造车,才能让苹果再次酷起来

    去年2月,苹果公司被曝出正式放弃长达十年的造车项目,将大部分汽车团队的员工转向AI。一年半后,迟迟拿不出下一个爆款的苹果,或许到了重启造车的十字路口。 北京时间8月1日凌晨,苹果于美股收盘后发布2025财年第三季度(自然年2025年第二季度)业绩。这是一份财务上令人满意的财报,也是一份处处透露着平淡的成绩单。 上一季度,苹果主要财务指标均超出华尔街分析师的平…

    商业 2025年8月2日
    4200
  • 稳定币法案通过参议院,后续流程与前景如何?

    美东时间6月17日,美国参议院正式通过《GENIUS法案》,为锚定美元的加密货币稳定币建立首个联邦监管框架。从内容来看,与法案最初版本相比,参议院最终通过的修正案加强了对银行体系和消费者权益的保护,但未对总统发行国家级稳定币设限,体现出两党为法案的快速通过均做出了一定让步。从目标来看,特朗普政府加快推进稳定币立法,既意图借此维护美元主导地位,也服务于其家族成…

    商业 2025年6月20日
    8200
  • 天风证券:刚果金出口禁令延期超预期,重视钴价和权益端弹性

    核心观点 短期来看,重点关注供应不受刚果(金)出口禁令影响的资源标的,拥有印尼优质镍钴资源的华友钴业、力勤资源;看长一点,刚果(金)在全球钴供应中的绝对体量难以被替代,后续配额制度正式落地后,资源储备丰厚、产能规模领先的企业将更具优势,有望实现价优于量(价格过低的放量本身盈利空间有限,配额实现以价换量),建议关注洛阳钼业以及弹性标的腾远钴业、寒锐钴业。 摘要…

    商业 2025年6月25日
    9500
  • A股收评:三大指数齐跌!海南自贸区板块回调,半导体板块逆势拉升

    7月25日,A股主要指数集体下跌,沪指跌0.33%报3593点,深证成指跌0.22%,创业板指跌0.23%。全市场超2700股下跌。 盘面上,海南自贸区、海南板块走低,神农种业、欣龙控股跌超9%;雅下水电概念大幅回撤,深水规院20CM跌停;白酒板块下挫,古井贡酒、天佑德酒跌近3%;抽水蓄能、地下管网、水泥概念、建筑材料、免税店、可控核聚变等板块下跌。 另外,…

    2025年7月25日
    5300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信