欢迎光临，我们是一家专注中小型企业营销推广服务的公司！

咨询热线：400 9868 577

淮南兰乔电子商务有限公司

专注企业电商网络营销推广！免费电商SEO诊断，你可信任的网络推广专家

新闻中心News

主页 > 新闻中心

全球首个“纯 AMD”训练 MoE 大模型 ZAYA1 发布

作者：花韻仙語 | 点击: | 来源：花韻仙語

2511
2025

AMD联合IBM及AI新锐Zyphra推出ZAYA1——全球首款完全基于AMD硬件训练的MoE基础模型，完成14Ttokens预训练，整体表现媲美Qwen3系列，数学与STEM推理能力在未进行指令微调的情况下已接近Qwen3专业版本。训练配置集群架构：IBMCloud平台部署128节点，每节点搭载8块AMDInstinctMI300X，总计1024张加速卡；采用InfinityFabric互联技术与ROCm软件栈，实现峰值算力750PFLOPs训练数据：涵盖14万亿tokens，采用课程学习策略...

amd联合ibm及ai新锐zyphra推出zaya1——全球首款完全基于amd硬件训练的moe基础模型，完成14t tokens预训练，整体表现媲美qwen3系列，数学与stem推理能力在未进行指令微调的情况下已接近qwen3专业版本。

训练配置

集群架构：IBM Cloud平台部署128节点，每节点搭载8块AMD Instinct MI300X，总计1024张加速卡；采用InfinityFabric互联技术与ROCm软件栈，实现峰值算力750PFLOPs
训练数据：涵盖14万亿tokens，采用课程学习策略，逐步聚焦于数学、代码与复杂推理任务；后续将发布进一步优化的后训练版本

架构亮点

CCA注意力机制：融合卷积操作与压缩嵌入注意力头设计，显存消耗降低32%，长序列处理吞吐提升18%
线性路由MoE结构：细化专家粒度并引入负载均衡正则化，Top-2路由准确率提高2.3个百分点，在70%稀疏度
下仍维持高效资源利用

性能表现

ZAYA1-Base（非指令调优版）在MMLU-Redux、GSM-8K、MATH、ScienceQA等多项评测中与Qwen3-Base相当；在CMATH与OCW-Math任务上表现更优，凸显其在科学与数学领域的强大潜力。Zyphra透露，指令微调及RLHF增强版本计划于2026年第一季度上线，并将开放API接口与模型权重下载。

AMD指出，本次合作成功验证了MI300X搭配ROCm在超大规模MoE模型训练中的稳定性与竞争力，未来将携手更多云服务商推广“全AMD”训练集群方案，目标在2026年实现训练超百亿参数MoE模型时，总体拥有成本（TCO）与NVIDIA方案持平。

源码地址：点击下载

相关推荐

上一篇：哪里的人更爱买蔚来汽车？1-9月数据出炉：北京仅第三

下一篇：《生化危机9：安魂曲》是系列开发试错最多的一代！浣熊市将全面翻新

我要咨询做网站

成功案例

建站流程

网站需
求分析
网站策
划方案
页面风
格设计
程序设
计研发
资料录
入优化
确认交
付使用
后续跟
踪服务
400 9868 577
info#ilanqiao.cn