谷歌十年磨一剑,大招或将终结英伟达的辉煌?
据最新消息,谷歌憋了十年的大招或将给英伟达带来冲击,有传闻称,谷歌即将推出具有强大计算能力的新技术,可能会改变当前市场对于英伟达等图形处理器制造商的竞争格局,这一消息引发了行业内众多人士的关注和猜测,英伟达的好日子是否到头了?还需拭目以待。
要说上个月谁是科技巨头里最大的赢家,世超提名谷歌应该没人有意见吧?
靠着性能炸裂的 Gemini 3,短短半个月,股价蹭蹭涨不说,还在竞技场内拳打 OpenAI,竞技场外脚踢英伟达。
回撤一点,问题不大
至于卖铲子的老黄怎么也跟着躺枪,原因很简单,谷歌表示,Gemini 3 Pro 是在自研 TPU(Tensor Processing Unit)上训练的,至少在字面上,是没提英伟达一个字儿。
紧跟着,媒体和吃瓜群众开始纷纷猜测,说什么谷歌这回,可能真要终结 CUDA 护城河了。
;那么问题来了,看似让英伟达好日子到头的 TPU,到底是个啥?
从名字上也能看得出,它其实是一类芯片,和 GPU 是近亲,只不过做成了 AI 特供版。
虽然 TPU 最近才引起大伙儿的注意,但这是一个从 2015 年延续到现在的老项目。
第一代 TPU 长这样
那时候谷歌正经历技术转型的阵痛,想把传统的搜推算法全换成深度学习。结果他们发现,这 GPU 不止不够用,还巨耗电,根本用不起。
GPU 的问题,在于它太想全能了。为了什么都能干,不得不搞了一套硬盘、内存、显存、核心,层层叠叠的复杂架构。
;这带来一个大麻烦,在芯片的世界里,搬运数据的成本,远比计算本身高得多。数据从显存跑到核心,物理距离可能只有几厘米,电子却要翻山越岭。
GPU 工作方式
于是,电费大半没花在算数上,全花在送快递的路费上了。最后变成热量,还得拜托风扇吹一吹。
这在做图形渲染时没毛病,因为画面高度随机,要啥素材没法预料,只能回显存现取。
;但 AI 的矩阵运算,每个数怎么算,和谁算,算几次都是固定的。我明知道这个数算完了,一会儿还要接着用,GPU 硬是得把它存回去,等着别人再取进计算单元,这不纯纯浪费吗?
所以,作为一个 AI 专属工具人,TPU 就这样出生了。它把 GPU 那些用不上的图形、控制流、调度模块等等拆的拆,压的压。
核心思路,是专门对 AI 最常用的矩阵乘法做优化,搞了一个叫 脉动阵列 的方法。
用上这一招,每个数据一旦开算,就会在密集排列的计算单元之间传递,没用完不许回存储单元。这样,就不需要频繁读写了。
;就这样,TPU 每个周期的计算操作次数达到了数十万量级,是 GPU 的近十倍。初代 TPU v1 能效比达到同时期 NVIDIA Tesla K80 的 30 倍,性价比极高。
当然,最开始谷歌也是边缘试探,没玩那么大。TPU 也还只搞推理,不会训练,功能单一,完全没法和 GPU 比。
从第二代起,谷歌才开始往内存上堆料,提升容量和数据传输速度,让 TPU 能一边计算,一边快速记录和修改海量的中间数据(比如梯度和权重),自此点亮了训练的技能树。
随着 TPUv3 规模增加,模型训练速度提升
但这么多年以来,明明用 TPU 训练推理的成本更低,性能也和 GPU 不相上下,为啥巨头们还非得去抢英伟达的芯片呢?
事实上,真不是大伙儿不馋,而是谷歌坏,一直在硬控。所有的 TPU 只租不卖,绑定在谷歌云里。大公司不能把 TPU 搬回家,相当于把身家性命都交给谷歌云,心里总毛毛的。生怕英伟达没卡死的脖子,在谷歌这直接快进到掐断了。
;即使这样,苹果也没架住便宜大碗的诱惑,多多少少租了点儿。
而这回热度这么高,一方面是 Gemini 3 证明了 TPU 的成功,品质放心;另一方面,是因为第七代 TPU Ironwood,谷歌终于舍得卖了。
根据 The Information 的报道,Meta 已经在和谷歌洽谈数十亿美元的大合同,准备从 2027 年开始,在机房部署 TPU,还计划最早明年就要从谷歌那租用 TPU。
消息一出,谷歌股价立涨 2.1%,英伟达下跌 1.8%。
甚至有谷歌内部人士放话,我们这一波大开张,可能会抢走英伟达几十亿美元的大蛋糕,直接切掉他们 10% 的年收入哦。
华尔街对 TPU 也是爱得不行,觉得这好东西钱途一片光明。就连负责设计制造的博通都沾了光,被上调了业绩预期。
;但是,要说 TPU 会取代 GPU,真不至于。
TPU 是一种 ASIC(Application-Specific Integrated Circuit),又名专用集成电路。人话来讲,TPU 除了擅长 AI 那几个矩阵计算,别的啥都不太行。
这是它的优点,也是它的痛点。
TPU 工作方式
赶上大模型当道的好时候,对矩阵计算的需求大得离谱,TPU 跟着一步登天。但要是以后有啥更火的 AI 技术路线,不搞现在这一套,TPU 分分钟失业。
而且 TPU 因为太专精,一旦在计算上没有性能优势,就彻底失去价值。四年前的 TPU v4,咱们已经很难见到它了。
;相比之下,GPU 就不一样了。以五年前诞生在大模型浪潮前的 3090 为例,它硬是靠着 24G 超大显存,和 CUDA 不抛弃不放弃的向下兼容生态,直到现在还是普通人玩 AI 的超值主力卡,跑个 Llama 8B 小模型不成问题。
退一步讲,就算 AI 这碗饭不香了,大不了回去接着伺候游戏玩家和设计师,照样活得滋润。
另外,CUDA 生态依然是英伟达最大的杀招。
这就好比你用惯了 iOS,虽然安卓也很好,但让你把存了十年的照片、习惯的操作手势、买的一堆 App 全都迁移过去,你大概率还是会选下次一定。
现在的 AI 开发者也是一样,大家的代码是基于 CUDA 写的,调用的库是英伟达优化的,甚至连报错怎么改都只会搜 CUDA 的。
;想转投 TPU?行啊,先把代码重构一遍,再适应新的开发环境。
即使强兼了 PyTorch,很多底层的优化、自定义算子,换到 TPU 上还是得重新调试。专门指定的 JAX 语言,也给人才招聘垫高了门槛。
对于大多数只想赶紧把模型跑起来的中小厂来说,与其费劲巴拉地去适配 TPU,甚至根本搞不到,直接买英伟达芯片,反而是最省事的选择。
不说别的,谷歌自己还在大量采购英伟达的 GPU,就算自己不用,谷歌云那么多客户还得用呢。
;所以,TPU 这波开卖,确实在大模型训练这一亩三分地上,用经济划算给英伟达上了一课。但也绝对没有被吹的,要抢 GPU 饭碗那么神。
未来的算力市场,更大概率是 TPU 占据头部大厂的专用需求,而 GPU 继续统治通用市场。
但只要巨头们竞争起来,就有可能把算力价格打下来,这怎么看,都是个好事啊。
作者:访客本文地址:https://www.hujinzicha.net/post/8857.html发布于 2025-12-06 18:02:16
文章转载或复制请以超链接形式并注明出处北方经济网
















还没有评论,来说两句吧...