北京时间5月23日凌晨,Anthropic在其首届开发者大会中正式发布Claude 4系列混合推理模型。该系列模型主要亮点在于:1)可连续执行7小时复杂任务,推理能力优秀且稳定;2)已支持Agent编程产品和Agent开发平台。投资层面看,Claude 4稳定的推理能力的进步有效的开阔了大模型的应用场景;Agent产品的不断探索与成熟也为AI商业化夯实基础。随着通用推理能力的进步,中信证券认为AI爆款应用有望从科研、编程等高价值场景起率先解锁,软件、互联网有望受益;除去应用端的投资机会,硬件端的需求也会随着多模态的技术的进步与应用而不断提高,中期维度,中信证券仍持续看好 AI 算力板块的投资机会。
▍事项:
北京时间5月23日凌晨,Anthropic在其首届开发者大会中正式发布Claude 4系列混合推理模型。该系列模型包括旗舰模型Claude Opus 4和主力模型Claude Sonnet 4。根据Anthropic官网,该系列模型的主要亮点在于:1)可以连续执行7小时复杂任务,展现出优秀推理能力;2)已支持Agent编程产品和Agent开发平台。根据Anthropic官网,Claude 4系列模型还同步推出了如下新功能:1)工具辅助的延伸思考(测试版):Claude 模型在进行深入思考时,能够交替使用工具(如网页搜索),以优化推理过程和回复质量;2)新增模型能力:两款模型可并行使用工具,执行更精确的指令,并在开发者授权下,提升记忆能力,能提取并保存关键信息,保持上下文连贯;4)新的 API 功能:Anthropic API 新增四项功能,包括代码执行工具、MCP 连接器、文件 API 和最长可缓存 1 小时的提示缓存功能。
▍模型性能:编程场景表现行业领先,基准测试表现仍有一定提升空间。
根据Anthropic官网,在编程这一特定场景中,Claude 4居于行业领先地位,在代码测试SWE-bench Verified中,Opus 4和Sonnet 4得分分别为79.4%和80.2%,显著高于o3(69.1%)、GPT-4.1(54.6%)和Gemini 2.5 Pro(63.2%);在代理终端编程测试Agentic terminal coding中,Opus 4和Sonnet 4得分分别为50%和41.3%,显著高于o3(30.3%)、GPT-4.1(30.3%)和Gemini 2.5 Pro (25.3%)。而在基准测试场景,Claude 4在推理测试和问答测试场景中表现亮眼,数学测试仍有提升空间。在推理测试场景GPQA中,Opus 4和Sonnet 4得分分别为83.3%和83.8%,与OpenAI o3(83.3%)和Gemini 2.5 Pro(83.0%)水平相当;在问答测试场景中MMMLU中,Opus 4和Sonnet 4得分分别为88.8%和86.5%,与OpenAI o3(88.8%)水平相当;在数学测试AIME 2025中,在不进行多次尝试情况下,Opus 4和Sonnet 4得分分别为75.5%和70.5%,低于o3(88.9%)和Gemini 2.5 Pro (83.0%);在进行多次尝试后Opus 4和Sonnet 4的得分分别提升至90.0%和85.0%。
▍市场定位:长时间稳定复杂任务处理能力赋能Agent产品,旗舰模型推理成本期待优化。
根据Anthropic官网,Claude 4在一项高要求的开源重构任务中连续稳定的运行了7个小时,性能表现出色,为Agent产品在编程场景的铺开创造了可能。目前Claude 4已经被Github Copilot选为了新一代产品的基座模型。定价方面:1)C端产品:Claude 4 Opus将向付费订阅用户开放,目前Claude系列模型的付费用户收费标准为专业版20美元/月(年度订阅折扣后为200美元/年),Max版收费为100美元/月;而Claude Sonnet 4可对免费用户开放。2)B端产品:目前Claude Opus 4定价为输入15美元/百万Token,输出75美元/百万Token,价格高于o3(输入10美元/百万Token,输出为40美元/百万Token);Claude Sonnet 4定价为输入3美元/百万Token,输出15美元/百万Token,与前代产品Claude 3.7 Sonnet持平,接近于Gemini 2.5 Pro (输入2.5美元/百万Token,输出15美元/百万Token)。
▍趋势展望:推理模式持续进化,Agent落地值得关注。
根据Anthropic官网,Claude 4是一个混合推理模型,即模型可提供2种模式:即时的反应模式和深入推理的扩展思考模式。根据微软研究院于2025年5月发布的论文《Think Only When You Need with Large Hybrid-Reasoning Models》(Jiang L, Wu X,和Huang S等,2025),当前的大型推理模型(如OpenAI o3和DeepSeek R1等)都存在过度思考的问题,即在简单任务上进行了冗长分析,不仅浪费计算资源,还破坏了用户体验。而这篇论文发现,通过使用混合微调(Hybrid Fine-Tuning,HFT)和混合组策略优化(Hybrid Group Policy Optimization,HGPO)手段,不仅可以减少计算资源的消耗,而且可以有效提升模型在推理密集型任务和通用下游任务上的性能。此外,Agent的落地探索也在持续。根据各公司官网,此前推出Agent产品的厂商主要为Salesforce和ServiceNow等软件厂商,而最近1个月内亮相的编程场景Agent包括OpenAI的Codex、Google的Jules和Anthropic的Claude Code。此外,Anthropic还发布了Claude Code SDK以支持用户基于Claude Code自行构建Agent。
▍风险因素:
AI核心技术发展不及预期风险;科技领域政策监管持续收紧风险;私有数据相关的政策监管趋严风险;全球宏观经济复苏不及预期风险;宏观经济波动导致欧美企业IT支出不及预期风险;AI潜在伦理、道德、用户隐私风险;企业数据泄露、信息安全风险;行业竞争持续加剧风险等。
▍投资策略:
本次Claude 4的更新不再是单单围绕底层算法层面,而是同步在应用层面取得进步,Agent产品与Agent开发平台的推出均是AI商业化落地的重要探索。从技术角度,Claude 4此类混合推理模型的基础能力在强化学习方法加持下在得到显著提升,表明模型仍在持续进步。应用层面,Claude 4稳定的推理能力的进步有效的开阔了大模型的应用场景。随着底层算法能力提升带来的通用推理能力的进步,中信证券认为AI爆款应用有望从科研、编程等高价值场景起率先解锁,软件、互联网有望受益;除去应用端的投资机会,硬件端的需求也会随着多模态的技术的进步与应用而不断提高,中期维度,中信证券仍持续看好 AI 算力板块的投资机会。
注:本文节选自中信证券研究部已于2025年5月25日发布的《前瞻研究行业全球AI人工智能产业重大事项点评—Claude 4发布,Agent能力内化并实现7小时复杂任务稳定推理》报告,分析师:陈俊云S1010517080001;贾凯方S1010522080001;高飞翔S1010523060003;许英博S1010510120041
主题测试文章,只做测试使用。发布者:北方经济网,转转请注明出处:https://www.hujinzicha.net/25179.html