主要内容
本周,Anthropic 宣布将在一项价值数百亿美元的交易中部署多达 100 万台谷歌云 TPU,这标志着企业 AI 基础设施战略的重大调整。预计 2026 年将在线提供超过 1 吉瓦的容量,这是任何基础模型提供商对专用 AI 加速器的最大单笔承诺之一,为企业领导者提供了关于塑造生产 AI 部署的不断变化的经济和架构决策的关键见解。
此举因其时机和规模而尤为引人注目。Anthropic 目前为超过 30 万商业客户提供服务,大型账户(定义为年运行率收入超过 10 万美元的账户)在过去一年中增长了近七倍。这种客户增长轨迹集中在财富 500 强公司和原生 AI 初创公司中,表明 Claude 在企业环境中的采用正在从早期实验阶段加速进入生产级实施阶段,在此阶段,基础设施可靠性、成本管理和性能一致性变得不可协商。
多云计算
与典型的供应商合作伙伴关系不同的是,Anthropic 明确阐述了多元化的计算策略。该公司在三个不同的芯片平台上运行:谷歌的 TPU、亚马逊的 Trainium 和英伟达的 GPU。首席财务官 Krishna Rao 强调,亚马逊仍然是主要的训练合作伙伴和云提供商,正在进行 Rainier 项目的工作——一个跨越多个美国数据中心的数十万个 AI 芯片的大型计算集群。对于评估自己的 AI 基础设施路线图的企业技术领导者来说,这种多平台方法值得关注。它反映了一种务实的认识,即没有任何一种加速器架构或云生态系统能最优地服务于所有工作负载。
训练大型语言模型、针对特定领域应用进行微调、大规模提供推理以及进行对齐研究,每个都呈现出不同的计算配置文件、成本结构和延迟要求。对于 CTO 和 CIO 来说,战略含义很明确:随着 AI 工作负载的成熟,基础设施层的供应商锁定带来的风险越来越大。构建长期 AI 能力的组织应该评估模型提供商自己的架构选择以及他们在平台之间移植工作负载的能力如何转化为企业客户的灵活性、定价优势和连续性保证。
性价比和规模经济
谷歌云首席执行官 Thomas Kurian 将 Anthropic 扩大 TPU 承诺归因于过去几年中展示的“强大的性价比和效率”。虽然具体的基准比较仍然是专有信息,但此选择背后的经济因素对企业 AI 预算至关重要。TPU 专为神经网络计算中的张量操作而设计,与通用 GPU 相比,通常在特定模型架构的吞吐量和能源效率方面具有优势。
公告中提到的“超过 1 吉瓦的容量”具有指导意义:功耗和冷却基础设施越来越制约大规模的 AI 部署。对于在本地运行 AI 基础设施或协商托管协议的企业来说,了解包括设施、电力和运营开销在内的总体拥有成本与原始计算定价一样重要。公告中提到的第七代 TPU,代号为 Ironwood,代表了谷歌在 AI 加速器设计方面的最新迭代。虽然公共文档中的技术规格仍然有限,但谷歌近十年来开发的 AI 加速器产品组合的成熟度为评估 AI 芯片市场新进入者的企业提供了一个对比。经过验证的生产历史、广泛的工具集成以及支持。