中信证券:推理模式持续进化,Agent落地值得关注

北京时间5月23日凌晨,Anthropic在其首届开发者大会中正式发布Claude 4系列混合推理模型。该系列模型主要亮点在于:1)可连续执行7小时复杂任务,推理能力优秀且稳定;2)已支持Agent编程产品和Agent开发平台。投资层面看,Claude 4稳定的推理能力的进步有效的开阔了大模型的应用场景;Agent产品的不断探索与成熟也为AI商业化夯实基础。随着通用推理能力的进步,中信证券认为AI爆款应用有望从科研、编程等高价值场景起率先解锁,软件、互联网有望受益;除去应用端的投资机会,硬件端的需求也会随着多模态的技术的进步与应用而不断提高,中期维度,中信证券仍持续看好 AI 算力板块的投资机会。

事项:

北京时间5月23日凌晨,Anthropic在其首届开发者大会中正式发布Claude 4系列混合推理模型。该系列模型包括旗舰模型Claude Opus 4和主力模型Claude Sonnet 4。根据Anthropic官网,该系列模型的主要亮点在于:1)可以连续执行7小时复杂任务,展现出优秀推理能力;2)已支持Agent编程产品和Agent开发平台。根据Anthropic官网,Claude 4系列模型还同步推出了如下新功能:1)工具辅助的延伸思考(测试版):Claude 模型在进行深入思考时,能够交替使用工具(如网页搜索),以优化推理过程和回复质量;2)新增模型能力:两款模型可并行使用工具,执行更精确的指令,并在开发者授权下,提升记忆能力,能提取并保存关键信息,保持上下文连贯;4)新的 API 功能:Anthropic API 新增四项功能,包括代码执行工具、MCP 连接器、文件 API 和最长可缓存 1 小时的提示缓存功能。

▍模型性能:编程场景表现行业领先,基准测试表现仍有一定提升空间。

根据Anthropic官网,在编程这一特定场景中,Claude 4居于行业领先地位,在代码测试SWE-bench Verified中,Opus 4和Sonnet 4得分分别为79.4%和80.2%,显著高于o3(69.1%)、GPT-4.1(54.6%)和Gemini 2.5 Pro(63.2%);在代理终端编程测试Agentic terminal coding中,Opus 4和Sonnet 4得分分别为50%和41.3%,显著高于o3(30.3%)、GPT-4.1(30.3%)和Gemini 2.5 Pro (25.3%)。而在基准测试场景,Claude 4在推理测试和问答测试场景中表现亮眼,数学测试仍有提升空间。在推理测试场景GPQA中,Opus 4和Sonnet 4得分分别为83.3%和83.8%,与OpenAI o3(83.3%)和Gemini 2.5 Pro(83.0%)水平相当;在问答测试场景中MMMLU中,Opus 4和Sonnet 4得分分别为88.8%和86.5%,与OpenAI o3(88.8%)水平相当;在数学测试AIME 2025中,在不进行多次尝试情况下,Opus 4和Sonnet 4得分分别为75.5%和70.5%,低于o3(88.9%)和Gemini 2.5 Pro (83.0%);在进行多次尝试后Opus 4和Sonnet 4的得分分别提升至90.0%和85.0%。

▍市场定位:长时间稳定复杂任务处理能力赋能Agent产品,旗舰模型推理成本期待优化。

根据Anthropic官网,Claude 4在一项高要求的开源重构任务中连续稳定的运行了7个小时,性能表现出色,为Agent产品在编程场景的铺开创造了可能。目前Claude 4已经被Github Copilot选为了新一代产品的基座模型。定价方面:1)C端产品:Claude 4 Opus将向付费订阅用户开放,目前Claude系列模型的付费用户收费标准为专业版20美元/月(年度订阅折扣后为200美元/年),Max版收费为100美元/月;而Claude Sonnet 4可对免费用户开放。2)B端产品:目前Claude Opus 4定价为输入15美元/百万Token,输出75美元/百万Token,价格高于o3(输入10美元/百万Token,输出为40美元/百万Token);Claude Sonnet 4定价为输入3美元/百万Token,输出15美元/百万Token,与前代产品Claude 3.7 Sonnet持平,接近于Gemini 2.5 Pro (输入2.5美元/百万Token,输出15美元/百万Token)。

▍趋势展望:推理模式持续进化,Agent落地值得关注。

根据Anthropic官网,Claude 4是一个混合推理模型,即模型可提供2种模式:即时的反应模式和深入推理的扩展思考模式。根据微软研究院于2025年5月发布的论文《Think Only When You Need with Large Hybrid-Reasoning Models》(Jiang L, Wu X,和Huang S等,2025),当前的大型推理模型(如OpenAI o3和DeepSeek R1等)都存在过度思考的问题,即在简单任务上进行了冗长分析,不仅浪费计算资源,还破坏了用户体验。而这篇论文发现,通过使用混合微调(Hybrid Fine-Tuning,HFT)和混合组策略优化(Hybrid Group Policy Optimization,HGPO)手段,不仅可以减少计算资源的消耗,而且可以有效提升模型在推理密集型任务和通用下游任务上的性能。此外,Agent的落地探索也在持续。根据各公司官网,此前推出Agent产品的厂商主要为Salesforce和ServiceNow等软件厂商,而最近1个月内亮相的编程场景Agent包括OpenAI的Codex、Google的Jules和Anthropic的Claude Code。此外,Anthropic还发布了Claude Code SDK以支持用户基于Claude Code自行构建Agent。

▍风险因素:

AI核心技术发展不及预期风险;科技领域政策监管持续收紧风险;私有数据相关的政策监管趋严风险;全球宏观经济复苏不及预期风险;宏观经济波动导致欧美企业IT支出不及预期风险;AI潜在伦理、道德、用户隐私风险;企业数据泄露、信息安全风险;行业竞争持续加剧风险等。

▍投资策略:

本次Claude 4的更新不再是单单围绕底层算法层面,而是同步在应用层面取得进步,Agent产品与Agent开发平台的推出均是AI商业化落地的重要探索。从技术角度,Claude 4此类混合推理模型的基础能力在强化学习方法加持下在得到显著提升,表明模型仍在持续进步。应用层面,Claude 4稳定的推理能力的进步有效的开阔了大模型的应用场景。随着底层算法能力提升带来的通用推理能力的进步,中信证券认为AI爆款应用有望从科研、编程等高价值场景起率先解锁,软件、互联网有望受益;除去应用端的投资机会,硬件端的需求也会随着多模态的技术的进步与应用而不断提高,中期维度,中信证券仍持续看好 AI 算力板块的投资机会。

注:本文节选自中信证券研究部已于2025年5月25日发布的《前瞻研究行业全球AI人工智能产业重大事项点评—Claude 4发布,Agent能力内化并实现7小时复杂任务稳定推理》报告,分析师:陈俊云S1010517080001;贾凯方S1010522080001;高飞翔S1010523060003;许英博S1010510120041

主题测试文章,只做测试使用。发布者:北方经济网,转转请注明出处:https://www.hujinzicha.net/25179.html

(0)
北方经济网的头像北方经济网
上一篇 2025年5月27日 下午6:53
下一篇 2025年5月27日 下午6:54

相关推荐

  • 国家统计局:3月规模以上工业增加值增长7.7%,社零增长5.9%

    4月16日,国家统计局公布3月及一季度一系列经济数据。 初步核算,2025年一季度国内生产总值318758亿元,按不变价格计算,同比增长5.4%,比上年四季度环比增长1.2%。 一季度,全国居民人均可支配收入12179元,同比名义增长5.5%,扣除价格因素实际增长5.6%。 中国3月社会消费品零售总额同比增长5.9%,3月规模以上工业增加值同比增长7.7%,…

    2025年4月16日
    5300
  • 平安证券:春节假期消费数据全景

    核心观点 春节是中国传统消费旺季,从中亦能寻得全年消费变化的线索。作为2025重振消费之路系列第二篇,我们聚焦于春节假期的多维数据,探究2025年国内消费需求的韧性与潜力。 春节假期国内消费延续恢复势头,结构上的亮点在于以旧换新和电影票房。1)国内旅游收入和出行人次分别同比增长7.0%和5.9%。以19年为基准,今年春节假期旅游收入的恢复率是2020年以来主…

    2025年3月25日
    4300
  • 国泰海通宏观:进出口和生产小幅修复

    ·投资要点 · 上周高频数据显示,消费中汽车消费仍高,服务消费较平淡。投资呈现基建与地产分化趋势,专项债发行加快,地产成交同比转负。进出口因关税政策调整短期反弹,港口运行回升。生产边际修复,发电耗煤量、部分行业开工率改善。库存多数回落,煤炭和水泥库存上升。CPI降、PPI升,工业品价格整体趋稳,钢铁、石化等品类价格自底部回升;流动性紧平衡,美元指数回升56B…

    2025年5月19日
    1900
  • 鼎佳精密冲刺IPO!深耕消费电子赛道,2022年净利润下滑

    电脑行业孕育了不少代工厂,其中广达、仁宝、纬创、英业达、和硕、华勤、龙旗等厂商成为了这个市场的佼佼者。 近期,一家为仁宝电脑做配套产品的供应商正在冲击上市。 格隆汇新股获悉,北交所上市委员会定于2025年4月7日召开2025年第2次审议会议,审议苏州鼎佳精密科技股份有限公司(简称“鼎佳精密”)的首发事项,其保荐人是平安证券股份有限公司。 这并不是鼎佳精密第一…

    2025年4月7日
    4800
  • 隔夜美股全复盘(5.14) | Coinbase暴涨24%,获纳入标普500指数,5月19日生效

    01 大盘 昨夜美股除道指外,均收涨。截至收盘,道指跌 0.64%,纳指涨 1.61%,标普涨 0.72%。恐慌指数VIX跌 0.92%至18.22。美元指数昨日跌 0.81%,报100.98。美国十年国债收益率跌 0.089%,收报4.469%,相较两年期国债收益率差46.5个基点。现货黄金昨日涨 0.47%,报3249.86美元/盎司。布伦特原油收涨 2…

    2025年5月14日
    3600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信