
【编者按】AI芯片大战硝烟再起!谷歌正秘密打造“TorchTPU”计划,剑指英伟达的AI霸主地位。全球最流行的AI框架PyTorch与谷歌自研TPU芯片的深度融合,或将彻底打破英伟达CUDA生态的“铜墙铁壁”。这场硬件与软件的双重博弈背后,是千亿美元AI计算市场的重新洗牌——云巨头不再甘当芯片商的“搬运工”,而是亲手重构游戏规则。当meta、Anthropic等顶级玩家纷纷寻求替代方案,一场围绕算力自主权的暗战已悄然升级。谷歌能否用“开放生态”的钥匙打开开发者的心门?英伟达的护城河又是否真的牢不可破?答案或许就藏在这行行代码重构之中。(编者按约)
据知情人士透露,谷歌母公司Alphabet正启动一项新计划,旨在让其人工智能芯片更高效运行全球最广泛使用的AI软件框架PyTorch。此举意在削弱英伟达长期主导AI计算市场的格局。
该计划是谷歌激进战略的关键一环——力图使自家张量处理器(TPU)成为英伟达市场领先GPU的真正替代品。随着谷歌亟需向投资者证明其AI投资正在产生回报,TPU销售已成为谷歌云收入至关重要的增长引擎。
但单靠硬件并不足以推动市场采用。
知情人士称,这项内部代号为“TorchTPU”的新计划,旨在通过让TPU芯片与PyTorch软件完全兼容且对开发者友好,扫清阻碍TPU芯片普及的关键障碍。此前,许多客户已基于PyTorch构建技术基础设施。部分人士透露,谷歌正考虑将部分软件开源,以加速客户采用。
消息人士指出,相较于早期在TPU上支持PyTorch的尝试,随着越来越多渴望采用TPU却视软件堆栈为瓶颈的企业需求激增,谷歌已在组织聚焦、资源投入和战略重视层面,为TorchTPU倾注更多心力。
由meta平台大力支持的开源项目PyTorch,是开发者构建AI模型时最广泛使用的工具之一。在硅谷,几乎没有开发者会亲自编写英伟达、超微半导体或谷歌芯片实际执行的每一行代码。
相反,开发者依赖的是PyTorch这类工具——它汇集了预编写的代码库和框架,能自动化处理开发AI软件时的诸多常规任务。自2016年首次发布以来,PyTorch的发展历程始终与英伟达CUDA软件紧密交织。部分华尔街分析师将CUDA视为英伟达抵御竞争对手的最强护盾。
英伟达工程师耗费多年心血,确保基于PyTorch开发的软件在其芯片上实现极致速度与效率。相比之下,谷歌长期依赖内部软件开发者军团使用名为Jax的不同代码框架,其TPU芯片则通过名为XLA的工具高效运行该代码。谷歌自身大量AI软件堆栈和性能优化都围绕Jax构建,这加剧了谷歌使用芯片的方式与客户期望使用方式之间的鸿沟。
谷歌云发言人未对此项目细节置评,但向路透社证实该举措将为客户提供更多选择。
“我们目睹TPU和GPU基础设施的需求正呈现大规模加速增长态势,”发言人表示,“我们的核心是为开发者提供所需的灵活性与扩展能力,无论他们选择基于何种硬件进行构建。”
Alphabet曾长期将绝大部分自研芯片(即TPU)预留仅供内部使用。这一局面在2022年发生转变——谷歌云计算部门成功争取到TPU销售业务的主导权。此举大幅提升了谷歌云获得的TPU配额。随着客户对AI的兴趣日益浓厚,谷歌正通过扩大TPU对外部客户的生产与销售来把握商机。
然而,全球多数AI开发者使用的PyTorch框架,与谷歌芯片当前最精细适配的Jax框架之间存在错配。这意味着大多数开发者若想采用谷歌芯片并使其达到英伟达芯片的性能水平,往往需要进行大量额外的工程优化。在这快节奏的AI竞赛中,此类工作既耗时又耗资。
若成功推进,谷歌的“TorchTPU”计划有望显著降低企业转向英伟达GPU替代方案的成本。英伟达的市场主导地位不仅源于其硬件,更得益于其CUDA软件生态——该生态已深度嵌入PyTorch,成为企业训练和运行大型AI模型的事实标准方法。
知情人士透露,企业客户持续向谷歌反馈:由于历史上要求开发者从多数AI开发者已惯用的PyTorch,转向谷歌内部偏好的机器学习框架Jax,导致TPU在应对AI工作负载时更难被采纳。
据消息人士称,为加速开发进程,谷歌正与PyTorch的创建者及维护方meta展开紧密合作。这两大科技巨头持续商讨让meta获取更多TPU资源的协议——《The Information》此前已率先报道这一动向。
早期向meta提供的方案采用谷歌托管服务模式:meta等客户部署专为运行谷歌软件和模型设计的谷歌芯片,并由谷歌提供运营支持。知情人士表示,meta对开发能简化TPU运行流程的软件抱有战略兴趣,旨在降低推理成本,并使AI基础设施从英伟达GPU转向多元化,从而增强自身议价能力。
meta方面拒绝置评。
今年,谷歌已开始直接向客户数据中心销售TPU,而非仅限于其自有云平台访问权限。谷歌资深高管阿明·瓦赫达特本月被任命为AI基础设施负责人,直接向首席执行官桑达尔·皮查伊汇报。
谷歌需要这些基础设施既用于运行自身AI产品(包括Gemini聊天机器人和AI增强搜索),也用于支持谷歌云客户——例如向Anthropic等公司提供TPU访问服务。











