超级节点384打破英伟达对人工智能市场的掌控

2025-05-28

新闻要点

上周五在深圳的 Kunpeng Ascend 开发者大会上，华为推出 Supernode 384 架构，其抛弃传统计算原则，性能指标出色，已在多地数据中心部署，在中美科技竞争背景下实现 AI 能力突破。

- Supernode 384 架构挑战英伟达市场主导地位

- CloudMatrix 384 技术规格展现强大计算力

- 实际测试显示该架构性能远超传统架构

- 多地数据中心已部署 CloudMatrix 384 系统

主要内容

华为的 AI 能力在其 Supernode 384 架构中取得突破，这在美国与中国科技紧张局势下的全球处理器竞争中具有重要意义。中国科技巨头的最新创新成果来自上周五在深圳举行的鲲鹏昇腾开发者大会，公司高管在会上展示了该计算框架如何直接挑战英伟达长期以来的市场主导地位，因为该公司仍在严格的美国主导的贸易限制下运营。

从需求中诞生的架构创新
华为昇腾计算业务总裁张迪轩在其大会主题演讲中阐述了推动创新的根本问题：“随着并行处理规模的增长，传统服务器架构中的跨机带宽已成为训练的关键瓶颈。”Supernode 384 放弃了冯·诺依曼计算原则，转而采用专门为现代 AI 工作负载设计的对等架构。这一变化对混合专家模型（使用多个专用子网络解决复杂计算挑战的机器学习系统）特别有效。

华为的 CloudMatrix 384 实现展示了令人印象深刻的技术规格：384 个昇腾 AI 处理器跨越 12 个计算机柜和 4 个总线机柜，产生 300 千万亿次的原始计算能力，搭配 48 太字节的高带宽内存，代表着集成 AI 计算基础设施的飞跃。

性能指标挑战行业领导者
实际基准测试揭示了该系统与现有解决方案相比的竞争定位。像 Meta 的 LLaMA 3 这样的密集 AI 模型在 Supernode 384 上实现了每张卡每秒 132 个令牌，比传统集群架构的性能高出 2.5 倍。通信密集型应用程序的改进更为显著。阿里巴巴的 Qwen 和 DeepSeek 系列模型每张卡每秒达到 600 到 750 个令牌，显示了该架构对下一代 AI 工作负载的优化。

性能提升源于基础架构的重新设计。华为用高速总线连接取代了传统的以太网互连，将通信带宽提高了 15 倍，同时将单跳延迟从 2 微秒降低到 200 纳秒，提高了 10 倍。

地缘政治战略推动技术创新
Supernode 384 的发展离不开更广泛的美中技术竞争。美国的制裁系统地限制了华为获得尖端半导体技术的机会，迫使该公司在现有限制内最大限度地提高性能。SemiAnalysis 的行业分析表明，CloudMatrix 384 使用了华为最新的昇腾 910C AI 处理器，该处理器承认了固有的性能限制，但强调了架构优势：“华为在芯片方面落后一代，但其扩展解决方案在市场上可以说是比英伟达和 AMD 的当前产品领先一代。”这一评估揭示了华为 AI 计算策略如何从传统硬件规格转向系统级优化和架构创新。

市场影响和部署现实
除了实验室演示，华为已在安徽、内蒙古和贵州的多个中国数据中心部署了 CloudMatrix 384 系统。这种实际部署验证了该架构的可行性，并为更广泛的市场采用建立了基础设施框架。该系统的可扩展性潜力——支持数万个链接处理器——使其成为训练日益复杂的 AI 模型的一个引人注目的平台。这一能力满足了各行业对大规模 AI 实施日益增长的需求。

行业颠覆和未来考虑
华为的架构创新为行业带来了颠覆，未来它将继续在 AI 领域发挥重要作用，推动技术的发展和进步。

超级节点384打破英伟达对人工智能市场的掌控

新闻要点

主要内容

关于我们