AMD 发布 3nm GPU，推理性能狂飙 35 倍

日期：2025-06-13 20:43:54 / 人气：176

在科技飞速发展的当下，AI 领域的竞争愈发激烈，各大厂商纷纷发力，力求在这场技术竞赛中抢占先机。AMD，作为科技行业的重要参与者，近日再次成为众人瞩目的焦点。在其举办的 “Advancing AI 2025” 活动中，一系列震撼性的发布，尤其是基于 3nm 工艺的 GPU 产品，犹如一颗重磅炸弹，在行业内掀起了惊涛骇浪。
从 AMD 一季度亮眼的财务数据中，便能一窥其在市场中的强劲表现。季度营收 74 亿美元，同比增长 36%，连续四个季度营收加速上扬。数据中心和 AI 业务更是成为公司业绩增长的核心驱动力，数据中心部门一季度营收达 37 亿美元，同比增长 57%，这一成绩的取得，主要归功于 AMD EPYC CPU 和 AMD Instinct GPU 销量的节节攀升。与此同时，客户收入在第一季度创纪录地达到 23 亿美元，同比增长 68%，这得益于市场对最新 “Zen 5” AMD Ryzen 处理器的旺盛需求以及公司更为丰富的产品组合。在服务器 CPU 市场，AMD 的市场份额从 2018 年的仅 2%，一路飙升至今年一季度的 40%，其市场号召力实现了质的飞跃。

AMD 在 AI 市场能够成功突围，绝非偶然。除了在 CPU 和 GPU 领域长期积累的深厚技术底蕴外，过去几年围绕 AI 生态所进行的一系列收购举措，成为了其崛起的关键因素之一。自 2023 年起，AMD 开启了密集的收购行动。2023 年，收购软件公司 Mipsology 和 Nod.ai；去年，将 AI 实验室 Silo AI 和数据中心基础设施提供商 ZT Systems 纳入麾下；而在今年，收购步伐依旧未停，硅光子初创公司 Enosemi、编译器软件初创公司 Brium、人工智能芯片初创公司 Untether AI 以及生成式 AI 初创公司 Lamini 背后的团队纷纷加入 AMD 大家庭。这些收购行动，极大地完善和增强了 AMD 在人工智能领域的实力，尤其是在数据中心市场这一蕴含巨大收入增长潜力和盈利空间的领域。当然，AMD 此前的收购行动同样为其 AI 战略的推进以及与英伟达的竞争奠定了坚实基础。2022 年，对可编程芯片设计公司赛灵思（Xilinx）和网络芯片设计公司 Pensando 的收购，为 AMD 开拓新产品和新市场创造了广阔的机会。
在本次 “Advancing AI” 活动中，AMD 带来了一系列芯片和软件的重要更新，其中 MI350 系列 GPU 的亮相尤为引人注目。在过去的几年里，GPU 已然成为 AI 市场的核心焦点，而 AMD 的 Instinct 系列产品正是在这一领域大显身手。继去年推出 MI325X 之后，今年 AMD 基于 CDNA 4 架构，重磅推出了 MI350X 和 MI355X AI GPU。这两款新一代 GPU 堪称性能猛兽，不仅在某些方面领先于英伟达的同类产品，与上一代 AMD MI300X 相比，更是实现了性能的大幅跨越。其计算性能提升高达 4 倍，推理速度更是惊人地提高了 35 倍。如此显著的性能提升，主要得益于向 CDNA 4 架构的成功过渡，以及采用了更为先进的 3nm 计算芯片工艺节点。
MI350X 和 MI355X 采用了相同的底层设计，均基于 3nm 工艺（XCD 的制造工艺）打造，集成了高达 1850 亿个晶体管。在关键的 HBM 方面，两款产品均配备了高达 288GB 的 HBM3E 内存，内存带宽更是高达 8TB/s，并且新增了对 FP4 和 FP6 数据类型的支持。其中，AMD MI355X 配备的 HBM3E 显存容量，更是竞争对手 Nvidia GB200 和 B200 GPU 的 1.6 倍，而内存带宽同样保持在 8TB/s 的高水平。强大的性能往往伴随着功耗的增加，MI350X 能够适配总板级功耗（TBP）较低的风冷解决方案，而 MI355X 则进一步提升功耗，以满足最高性能需求的液冷系统。液冷高性能 MI355X 型号的总板载功耗（TBP）最高可达 1400W，相比 MI300X 的 750W 和 MI325X 的 1000W 散热能力有了显著提升。不过，AMD 强调，性能密度的显著提高，使得客户能够在单个机架中部署更多的计算性能，从而有效降低了至关重要的每 TCO（总体拥有成本）性能指标。凭借这些卓越的配置，AMD 自豪地宣称，MI355X 其峰值 FP64/FP32 性能比 Nvidia 芯片高出 2 倍。无论是在训练还是推理方面，AMD 新的 GPU 都展现出了巨大的优势。与 B200 相比，使用 MI355X，能在相同成本的前提下，实现高达 40% 的 tokens 增加，这无疑进一步降低了推理成本。
在发布会现场，AMD 还展示了基于 MI250 系列打造的 Rack - Scale 解决方案。其中，DLC 机架配备了 128 个 MI355X GPU 和 36TB HBM3E，这得益于液冷子系统提供的更高密度，从而能够支持使用更小的节点尺寸。AC 解决方案则最高可配备 64 个 GPU 和 18TB HBM3E，利用更大的节点通过风冷散热。值得一提的是，新的 GPU 延续了 AMD 在封装和 Chiplet 方面的技术优势。应用在 XCD 在 IOD 之上的 3D 混合键合堆叠技术，使得垂直连接芯片的带宽相比使用 2.5D 中介层技术有了大幅提升，这不仅让整个 GPU 封装尺寸比其他方式小得多，还显著提高了数据传输效率。而 I/O 芯片和 HBM 堆栈采用台积电的 CoWoS - S 封装以 2.5D 方式连接，这是目前将芯片连接在一起的一种成熟且可靠的方法。具体而言，该芯片共包含八个 XCD Chiplet，每个 chiplet 启用 32 个计算单元（CU），总计 256 个 CU。XCD 芯片从上一代的 5nm 工艺过渡到采用台积电 N3P 工艺节点生产的 MI350 系列芯片，使得整个芯片集成的晶体管数量比上一代的 1530 亿个晶体管预算增加了 21%。来到 I/O Die（IOD）部分，虽然仍然使用 N6 工艺，但 AMD 已将 IOD 从四个 Tile 减少到两个。通过这一巧妙设计，AMD 可以在两个 I/O 芯片之间以更宽的总线运行 Infinity Fabric 高级封装互连，使 AMD 能够将 Infinity Fabric 总线宽度翻倍，将对分带宽提升至高达 5.5TB/s，同时通过降低总线频率和电压来降低功耗，进而将更多的功耗用于核心计算任务。每个 XCD 总共包含 32 个计算单元和 128 个矩阵单元，其中 8 个 XCD 组合起来可组成 256 个计算单元和 1024 个矩阵核心。每个 GPU 芯片都有一个 HBM3E 堆栈，其中包含 12 个垂直堆叠的 DDR5 DRAM，每个堆栈互连 36GB，并以 8Gb / 秒的速率运行。MI350 系列拥有 8 个堆栈和 288GB 的容量，可在 128 个通道上驱动 8TB / 秒的总内存带宽。HBM3E 内存和 Infinity Fabric 互连之间有一层 Infinity Cache 内存，用于将内存连接到 XCD，进一步优化了数据存储和传输的效率。
在介绍完 MI350 系列之后，AMD 又为大家带来了一个重磅消息 —— 披露了公司下一代的 MI400 系列产品。据介绍，AMD MI400 GPU 系列将于 2026 年正式推出，其性能表现令人惊叹。该系列产品能够执行 40 petaflops（FP4）和 20 petaflops（FP8）的运算，运算能力是今年推出的旗舰产品 MI355X 的两倍之多。与 MI350 系列相比，MI400 系列基于更为先进的 HBM4 标准，内存容量将大幅提升至 432GB，内存带宽将达到惊人的 19.6TBps，同样是上一代产品的两倍多。MI400 系列还将支持每 GPU 300GBps 的横向扩展带宽容量，这将进一步提升其在大规模计算场景下的数据传输和处理能力。届时，AMD 还计划将 MI400 系列与其下一代 EPYC “Venice” CPU 和 Pensando “Vulcano” NIC 配对，为一个名为 Helios AI 的机架提供强大动力。Helios 机架将由 72 个 MI400 GPU 组成，这将使其拥有 31TB 的 HBM4 显存容量、1.4PBps 的显存带宽和 260TBps 的扩展带宽。如此强大的配置，将使 Helios 机架能够实现每秒 2.9 exaflops 的 FP4 计算能力和每秒 1.4 exaflops 的 FP8 计算能力，其扩展带宽也将达到 43TBps。AMD 透露，与定于明年推出的 Nvidia Vera Rubin 平台相比，Helios 机架将配备相同数量的 GPU 和扩展带宽，以及大致相同的 FP4 和 FP8 性能。值得注意的是，Helio 是一款双宽机架，AMD 及其主要合作伙伴认为，这一设计在 “复杂性和可靠性之间找到了最佳平衡点”，能够为用户提供更加稳定、高效的计算服务。
除了在 GPU 硬件领域取得的重大突破，AMD 在软件层面同样动作频频。在本届峰会上，AMD 带来了全新的 AMD ROCm 7 和 AMD 开发者云。首先来看 ROCm 7，推理成为了其最大的重点优化领域。与 ROCm 6 相比，ROCm 7 在 AI 工作负载中的性能提升高达 3.5 倍。具体细分性能提升情况，在 Llama 3.1 70B 测试中，性能提升高达 3.2 倍；Qwen2 - 72B 性能提升高达 3.4 倍；Deep Seek R1 性能提升更是高达 3.8 倍。在训练性能方面，ROCm 7 同样表现出色，相比 ROCm 6 有显著提升，在 Llama 2 70B、Llama 3.1 8B 和 Quen 1.5 7B 等测试中，训练性能提升了 3 倍。全新的 ROCm 7 软件堆栈还将扩展到企业 AI 领域，为企业用户提供完整的端到端解决方案，实现安全的数据集成和便捷的部署。该软件堆栈能够与 GPU、CPU 和 DPU 协同工作，并支持各种工作负载，尤其专注于 GenAI 工作负载，为企业在人工智能时代的数字化转型提供了强有力的支持。
再看 AMD 开发者云，其具备诸多亮点特性，为开发者提供了极大的便利。它允许开发者即时启动基于云的 Jupyter Notebook，无需进行繁琐的安装过程，使用 GitHub 或电子邮件地址即可轻松完成设置。AMD 开发者云预加载了流行 AI 软件的 Docker 容器，最大限度地减少了开发者的设置时间，同时还为开发者提供了自定义代码以满足其特定需求的灵活性。在硬件支持方面，AMD 开发者云率先支持 Day - 0 生态的 Instinct MI350 系列 GPU 系统，包括 vVLLM、SGLang、HAO AI lab、Stanford AI Lab 等，并且全面支持 PyTorch 和 Triton CL 等常用开发框架。此外，AMD 开发者云还拥有多元化的可扩展计算选项，开发者可以根据自身需求选择小型化的 1x MI300X GPU（192GB GPU 内存），或者大型的 8×MI300X GPU（1536GB GPU 内存）。为了鼓励开发者积极使用，AMD 还为开发者提供免费额度，开发者可申请 25 小时的免费云使用时长，通过 ROCm 星级开发者证书等项目则可额外获得高达 50 小时的使用时长。通过这些举措，AMD 开发者云为开发者们提供了即时开始开发工作的工具和灵活性，让开发者能够在不受硬件限制的环境中充分释放自身的生产力。AMD 开发者云与 ROCm 7 相辅相成，共同构建了一个强大的开发生态系统，目前已面向全球开发者和开源社区广泛开放。这个完全托管的环境，让开发者能够即时访问 AMD Instinct MI300X GPU，无需进行任何硬件投资或本地设置，大大降低了 AI 开发的门槛，促进了人工智能技术的普及和创新。
在网络方面，AMD 同样取得了重要进展。为了提升系统的扩展能力，AMD 多年前收购了 Pensando，这一举措为公司在网络拓展方面注入了强大的动力。随着 AI 技术的飞速发展，模型大小每三年增加 1000 倍，训练数据集每八个月增加 2 倍，而晶体管密度每两年增加两倍。面对如此迅猛的数据增长和计算需求，AMD 认为开放系统和以太网将成为未来分布式系统的基础。目前，AMD 正在出货 Pollara 400 AI 网卡，这是一款集成了 UltraEthernet 的 400G 设备。该产品搭载 AMD P4 可编程引擎，支持最新的 RDMA 软件，并提供多项新功能，以优化和增强高速网络的可靠性和可扩展性。AMD 指出，当使用 AMD 版本的 NVIDIA NCCL（称为 RCCL，用于横向扩展集体通信）时，其速度比 NVIDIA ConnectX - 7 快约 10%，比 Broadcom Thor2 快约 20%。这一优势具有重要意义，因为在大规模计算场景中，如果通信效率低下，可能会导致 GPU 空闲，从而严重降低整体工作负载的运行速度。随着下一代 AMD “Helios” 机架规模架构的即将推出，AMD 还计划使用 UALink 1.0 来处理其扩展需求。作为 NVIDIA NVLink 5.0 的开放替代方案，AMD 表示其扩展能力几乎是英伟达的两倍，而且还能集成来自多家供应商的组件，为用户提供更加灵活、多样化的选择。AMD 还计划到 2026 年推出一款名为 Vulcano 的 800G NIC，这款产品将适用于下一代 PCIe Gen6 集群以及 UALink 和 UltraEthernet，进一步提升网络传输速度和稳定性，为 AI 计算提供更加坚实的网络基础。
此外，不得不提的是 AMD 下一代 EPYC 处理器 —— 基于 ZEN 6 架构的 “Venice”。该 CPU 将采用台积电 2 纳米工艺，配备多达 256 个核心，相比当前一代 EPYC “Turin” 处理器的核心数量增加了 33%。与现有的第五代 EPYC “Turin” 9005 系列处理器相比，新产品的性能将提高高达 70%。不仅如此，新款 EPYC “Venice” 处理器的单路内存带宽将提升一倍以上，达到 1.6TB/s（高于公司现有 CPU 的 614GB/s），这将确保高性能的 Zen 6 核心始终能够保持数据的高效传输和畅通，为数据中心的大规模计算任务提供更加强劲的动力支持。“Venice 进一步拓展了 AMD 在数据中心各个重要领域的领导地位。”Lisa Su 博士在演讲中强调，这款处理器的推出，无疑将进一步巩固 AMD 在数据中心市场的竞争力，为其在 AI 时代的持续发展奠定更加坚实的基础。
AMD 在本次 “Advancing AI 2025” 活动中的一系列发布，充分展示了其在 AI 领域的强大实力和宏伟布局。从基于 3nm 工艺的高性能 GPU，到全新的软件堆栈 ROCm 7 和开发者云，再到网络方面的创新以及下一代 EPYC 处理器的规划，AMD 正全方位地构建一个开放、强大的 AI 生态系统。在 AI 市场竞争日益激烈的今天，AMD 凭借其不断创新的技术和产品，有望在这场技术变革中占据重要地位，为推动人工智能技术的发展和应用做出更大的贡献。随着这些产品和技术的逐步落地和应用，我们有理由相信，AI 行业将迎来更加繁荣的发展局面，为人们的生活和工作带来更多的便利和创新。

作者：亿兆体育

AMD 发布 3nm GPU，推理性能狂飙 35 倍

新闻资讯 News

案例展示 Case

现在致电 OR 查看更多联系方式 →

现在致电 OR 查看更多联系方式 →