闫俊杰不甘心

从AI六小龙缩减为AI四小强后,四家明星大模型创业公司终于都要上线自己的推理模型了。

在智谱AI、月之暗面和阶跃星辰相继上线自研推理模型后,近期虎嗅爆料MiniMax筹备半年多的文本推理模型也即将发布。

有接近MiniMax的知情人士向字母榜确认了上述爆料的真实性。

字母榜曾在《无人再谈AI六小龙》一文中率先指出,原本被冠以六小龙称号的队伍中,因为有人明显掉队(零一万物明确放弃追逐AGI,百川智能专注医疗垂类赛道),剩下的四家(智谱AI、MiniMax、月之暗面和阶跃星辰),也失去了如一条过江龙般,足以挑战乃至对抗大厂的资本和技术底气。曾经的AI六小龙,已经在新一轮大模型竞赛中滑落成了新的“AI四小强”。

曾几何时,四小强中的MiniMax一度引领行业之先。2023 年下半年,大部分国内大模型厂商还在继续迭代稠密模型(dense model)之际,MiniMax创始人兼CEO闫俊杰就把80%以上的研发和算力资源投到了一件不确定的事情上—— MoE(Mixture of Experts 混合专家模型)。

2024年 1 月,MiniMax上线的abab6,成为国内首个MoE大模型。此后,MoE架构彻底取代稠密架构,成了大模型领域技术迭代的新方向,年初爆火出圈的DeepSeek,应用的也是MoE。

但在DeepSeek R1掀起的新一轮推理模型浪潮中,MiniMax却成了那个后来者。当腾讯等玩家纷纷靠接入DeepSeek赚取用户关注之际,不甘心的MiniMax选择了一种折中方案:国内C端应用上坚持不接入DeepSeek,只在海外的AI应用上选择接入DeepSeek。

MiniMax的此番操作,不免让人联想到字节,后者同样选择不在国内主力C端应用豆包上接入DeepSeek,而是坚持等到后续自研推理模型的上线,才补上了深度思考的能力短板。

如今,闫俊杰也等来了一个如字节一般的机会,即尝试通过借助自家推理模型的上线,来重新证明MiniMax的技术底色。

A

缺失推理模型的影响,正从多个方面左右着大模型玩家的发展状态。

首当其冲的便是外界对其高估值和后续融资是否可持续的质疑。

2024年3月,MiniMax拿下6亿美元A轮融资后,投后估值来到25亿美元,这是MiniMax最后一次公开披露的投融资和估值信息。

2025年年初,外界有传闻MiniMax估值已经超过30亿美元,不过,据字母榜从接近MiniMax知情人士处获悉的消息,当前MiniMax估值已经超过40亿美元,仍然是当前四小强中估值最高的一家,“(MiniMax)全栈技术价值更高一些。”恒业资本管理合伙人江一如此评价道。

但迟迟未上推理模型,资本市场也开始重估MiniMax的估值体系。

比上线推理模型更难的是,不仅要有,作为后来者,还要做到比R1更好才行,“Kimi就是一个例子,尽管跟R1同时期上线了K1.5推理模型,但效果对比上显然败给了R1。”人工智能专家林峰博士说。

这也成了拖住MiniMax自家推理模型未能更早上线的因素之一。在MiniMax前员工李俊(化名)回忆中,去年中公司就开启了推理模型的研发工作。MiniMax高级研究总监钟怡然更是曾对外剧透,公司有望在4月到5月间,推出深度推理模型。

但现实的情况是,在技术迭代优化过程中,MiniMax食言了。按照当前进度来看,乐观情况下,MiniMax自研推理模型也要到6月中旬左右上线了。

因缺失推理模型所带来的深度思考能力短板,还使得MiniMax在应用侧难以吸引并聚拢起更多用户,考虑到国内应用还坚持不接入DeepSeek,这一难题无疑被进一步放大。

对比腾讯元宝,靠着率先接入DeepSeek的举动,其月活用户一跃从去年AI原生APP阵营中的others,变成了当前的行业TOP3(仅次于DeepSeek和豆包)。

B端的影响也在逐步显现。因为无法提供推理模型选项,公司可能会被迫将更多模型调用需求推向对手。

因模型能力短板或性价比因素而转投新阵营的事例比比皆是。去年5月DeepSeek掀起价格战后,作为第一家在旗舰模型上跟进降价的玩家,字节就曾靠着性价比优势,从MiniMax手中分润走了一部分AI儿童玩具公司Haivivi的语音模型调用需求。

B

拖累MiniMax推理模型更早上线的原因,一部分要归因于闫俊杰更大的赌性。

当DeepSeek、Kimi们着手研发推理模型之际,MiniMax则将重心放在了架构创新上。“相同的算力和资源的情况下,内部没有太多人力去做深度推理的,这导致我们跟随深度推理的脚步慢一点。”MiniMax高级研究总监钟怡然曾对外如此解释。

早于DeepSeek R1发布近一周,1月15日,MiniMax发布了MiniMax-01并正式开源,在新模型中首次尝试使用线性注意力架构Linear Attention。

官方介绍,MiniMax-01是首次在4000亿以上参数的大模型中,使用了线性注意力机制新架构(ChatGPT采用的标准Transformer是非线性注意力机制),能高效处理全球最长的 400万token上下文。

就像当年冒险赌注MoE一样,闫俊杰将筹码再次押在了Linear Attention上。

2024年4月,MiniMax成为第一批钻研Linear Attention的AI公司。随着MiniMax-01发布,公司内部也开始迎来新架构的更换,即从此前abab系列模型采用的Transformer架构,逐步更换为MiniMax-01模型采用的线性架构,后续视频、音乐等多模态模型更新,都将基于全新架构。

这也是MiniMax内部没有选择立马跟进OpenAI o1的原因之一。“我们认为单纯强调推理能力,可能仅会在某些特定方面增强模型性能。”钟怡然解释说。

然而,R1的发布,给了MiniMax一个措手不及,“我们发现融入这些推理能力,模型的外推能力显著提升,泛化能力更好。”为了追赶行业新态势,钟怡然所在的模型研发团队,整个春节期间都在赶工,以图加快推理模型上线。“内部给出的目标是,要做出比R1更好、甚至要达到o1或o3相近水准的推理模型,且实现多模态推理能力。”

不甘心的闫俊杰决定再次冒险:试图赶在DeepSeek前面,推出一个原生多模态深度推理模型,既能实现文本推理能力,又具备视觉理解能力。

但在虎嗅爆料中,MiniMax即将发布的推理模型则指具备文本理解能力。后续是否会加入视觉理解,还是分阶段逐步推出,目前仍留有悬念。

C

除了因冒险押注新架构带来的资源分散之外,在应用上的豪赌布局,也分散了MiniMax追求模型迭代的精力。

AI六小龙中,MiniMax布局几乎最广:既做To C,又做to B;既做国内,又做海外。庞大的业务策略,带来的代价之一便是产品和模型团队之间的“打架”。

MiniMax前员工李俊告诉字母榜,2024年,公司将收入和产品日活视为两大重要指标,甚至会出现这月追求收入,下月强调用户增长的频繁变动情况。

从2023年开始,围绕娱乐和生产力工具赛道,MiniMax一个都不打算放过:Talkie、星野、海螺AI相继问世,堪比AI圈的新APP工厂。

为了打造产品,闫俊杰还特意挖来前今日头条用户产品负责人张前川,给其赋予了公司合伙人的身份。

但豪赌一年后,闫俊杰为公司设立的2024年收入过亿美元和产品日活过千万两大目标,均未能实现。这也成为公司后续人员变动和组织架构调整的新导火索。

今年3月份,MiniMax负责商业化的合伙人兼副总裁魏伟离职,更早之前,从去年9月份开始,MiniMax产品负责人张前川,便淡出公司事务,改任产品顾问一职。

两大合伙人相继变动之下,MiniMax在应用侧也改变了策略:旗下AI应用“海螺AI”一分为二,拆分为一个主打AI助手的“MiniMax”,和侧重视频创作的“海螺AI”。

几次豪赌过后,闫俊杰吸取到的最大教训之一是,对技术品牌没有很深的认知。在2023年初认识梁文锋后,后者有两件事对闫俊杰一直带来启发:一是DeepSeek品牌做得非常好;另一个是DeepSeek一开始没有产品,所以更聚焦。

DeepSeek爆火并在短短时间内成为国内月活第一AI原生APP后,闫俊杰纠正了自己过去两年来的一个误区:即认为用户越多,模型能力提升越快。实际则是“更好的模型可以导向更好的应用,但更好的应用和更多用户并不会导向更好的模型。”

基于这一新的判断,闫俊杰重新做了取舍,不再将用户规模和商业化视作重点,而是重新将技术迭代确立为MiniMax的最重要目标。

D

但新的挑战接踵而至。

当下大模型赛道正进入淘汰赛,资金持续承压已成为行业现实。恒业资本管理合伙人江一爆料称,魏伟的离职原因之一,是因为融资KPI考核未达标。

但被融资困住的不只有MiniMax。“本质上是市梦率的时代在短短两年内已经结束。现在面临的是融资放缓+收入压力+战略调整的新阶段。”在江一看来,外界对大模型公司的考核标准,正从交付MaaS变成交付结果,竞争焦点也从过去比参数大小、多模态能力,偏向现在比谁能真正解决用户问题。

“最后市场状态,基础模型市场上正常情况下应该不超过三家。”怎么能确保继续留在这场大模型牌桌之上,持续获取融资的能力便成了决定胜负的关键手。

毕竟,无论是更新迭代模型能力,还是打造能够解决用户真实需求的Agent,无一例外都需要人才和算力资源的支撑,这些要素都得靠源源不断的金钱来维系运转。

稍有松懈,这些大模型厂商就可能面临被迫落后的局面:要么核心研发人员出走创业,要么在重要技术迭代方向上慢人一步。

即便解决好内部人才和资源问题,但随着DeepSeek重新激起大厂的AI热情,如MiniMax一般的初创公司,该如何在竞争中继续做出自己的技术亮点并保持领先地位,正变得越来越难。

MiniMax当前正寄望于用新的原生多模态推理模型重回舞台中央,但在这一领域,字节、阿里,腾讯,提前一步已经在文本推理模型之外,上线了图像推理模型:3月份,阿里通义千问团队推出QVQ-Max视觉推理模型;4月份,豆包深度思考模型专门打造了视觉版,具备视觉推理能力;5月份,腾讯混元T1-Vision上线元宝,可深度理解图片内容。

更大的竞争还在后面。延期后的MiniMax推理模型,即将直面DeepSeek R2和GPT-5的竞争,后两者都有望在今年下半年上线。

近期在墨西哥举办的AI Summit上,OpenAI代表确认正在开发下一代基础模型GPT-5,并有望年内上线。

DeepSeek R2的推出步伐也越来越近。按照DeepSeek以往内部模型每7个月一更新的节奏,新一代V4模型有望在今年7月份亮相。如果梁文锋希望在V4版本上训练R2,以R1与V3相隔1个月的推出时间差评估,R2最快便有望在8月份上线。

对于想要继续留在牌桌上的闫俊杰而言,这场AI大模型的竞争还远没到尽头。

主题测试文章,只做测试使用。发布者:北方经济网,转转请注明出处:https://www.hujinzicha.net/28106.html

(0)
北方经济网的头像北方经济网
上一篇 2025年6月9日 下午5:53
下一篇 2025年6月9日 下午5:53

相关推荐

  • 如何看待房企经营现状与板块投资机会?

    本轮地产下行周期已历经三年半有余,行业政策持续优化突破,既创新性提出收储工具,亦明确“止跌回稳”发展目标,基本面(市场或企业)处在寻底企稳的过程中。本报告主要着眼于本轮下行周期中房企经营压力及其变化分析,测算行业筑底企稳路径中板块后市投资收益空间,并提示2025年潜在的机会。 摘要 房企信用风险敞口有所收窄,经营端紧缩螺旋成为供给侧的新挑战。房企流动性困局虽…

    2025年3月25日
    3800
  • 连锁药店,病了!

    “胡吃海喝”数年之后,中国的连锁药店终于出现了“积食”症状,集体生病了。 精神抖擞的狂飙突进不再,行业性的业绩下滑、腰斩甚至是亏损,成为常态。 2024年,当中国的药店数量突破70万家时,结构性的供给过剩,已到了无以复加的地步。全年,关店近4万家,只是一个开始。今明两年,药店关门还将加剧,周期性的阵痛无法避免。 如何解困?解药还得各自去找。 集体“生病” 各…

    商业 2025年5月7日
    3900
  • 富时中国A50,直线拉升!

    该来的,总是要来。 在美国掀起关税烂招之下,全球市场接连巨震。 周一,全球市场果然被特朗普“征关之治”冲击的体无完肤,方向预期之内,但表现完全在意料之外。 截至收盘,A股沪深创三大指数分别收跌7.34%、9.66%、12.5%,共有3038个股跌停(其中近千个股当日跌幅超20%!),实属罕见。行业板块上,除了农业板块作为反关税概念逆势上涨,其余行业几乎无一幸…

    2025年4月8日
    4900
  • 国君港股策略:内资紧握红利与科技

    摘要 1月中旬以来,港股市场启动新一轮强劲走势,成交热度再次接近历史记录。恒生指数累计上涨超过20%,恒生科技指数涨幅更是超过30%。其中,在DeepSeek-R1大模型突破的驱动中,科技互联网行业表现最强,累计涨幅超过35%。港股市场的强劲表现提高了市场成交热度,春节以来,港股日均成交金额超过2,600亿港元,接近去年9月的强劲行情,日度成交金额一度突破4…

    2025年3月25日
    5000
  • 日债崩盘,美债“受伤”

    近期,美债收益率再次飙升,30年期美债收益率突破5%,10年期美债收益率突破4.6%。这波飙升背后,可谓“内外夹击”。 首先,是信用评级的“警钟”。5月15日,国际三大评级机构之一的穆迪(Moody’s)将美国主权信用评级从Aaa下调至Aa1,理由是联邦债务规模和利息支付比例持续攀升,财政状况令人忧心; 接着是5月22日,由共和党主导的众议院以微…

    商业 2025年5月28日
    3700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信