AMD联合IBM及AI新锐Zyphra推出ZAYA1——全球首款完全基于AMD硬件训练的MoE基础模型,完成14Ttokens预训练,整体表现媲美Qwen3系列,数学与STEM推理能力在未进行指令微调的情况下已接近Qwen3专业版本。训练配置集群架构:IBMCloud平台部署128节点,每节点搭载8块AMDInstinctMI300X,总计1024张加速卡;采用InfinityFabric互联技术与ROCm软件栈,实现峰值算力750PFLOPs训练数据:涵盖14万亿tokens,采用课程学习策略...
amd联合ibm及ai新锐zyphra推出zaya1——全球首款完全基于amd硬件训练的moe基础模型,完成14t tokens预训练,整体表现媲美qwen3系列,数学与stem推理能力在未进行指令微调的情况下已接近qwen3专业版本。
训练配置
- 集群架构:IBM Cloud平台部署128节点,每节点搭载8块AMD Instinct MI300X,总计1024张加速卡;采用InfinityFabric互联技术与ROCm软件栈,实现峰值算力750PFLOPs
- 训练数据:涵盖14万亿tokens,采用课程学习策略,逐步聚焦于数学、代码与复杂推理任务;后续将发布进一步优化的后训练版本
架构亮点
- CCA注意力机制:融合卷积操作与压缩嵌入注意力头设计,显存消耗降低32%,长序列处理吞吐提升18%
- 线性路由MoE结构:细化专家粒度并引入负载均衡正则化,Top-2路由准确率提高2.3个百分点,在70%稀疏度

下仍维持高效资源利用
性能表现
ZAYA1-Base(非指令调优版)在MMLU-Redux、GSM-8K、MATH、ScienceQA等多项评测中与Qwen3-Base相当;在CMATH与OCW-Math任务上表现更优,凸显其在科学与数学领域的强大潜力。Zyphra透露,指令微调及RLHF增强版本计划于2026年第一季度上线,并将开放API接口与模型权重下载。
AMD指出,本次合作成功验证了MI300X搭配ROCm在超大规模MoE模型训练中的稳定性与竞争力,未来将携手更多云服务商推广“全AMD”训练集群方案,目标在2026年实现训练超百亿参数MoE模型时,总体拥有成本(TCO)与NVIDIA方案持平。
源码地址:点击下载
相关推荐:
SEO优化价格:让您的企业在竞争激烈的市场中脱颖而出,elsa ai
SEO字:如何通过精准关键词提升网站流量与排名,赣州于都网站推广
软件AI的全称:人工智能驱动未来的关键力量
AI写作会不会重复生成?揭秘背后的智能与创新
如何判断一篇文章是否是AI生成的?深度解析与实用技巧,ai noval
在线翻译器:让语言不再是沟通的障碍,ai画抽象
SEO代做:让你的企业轻松登顶搜索引擎,快速提升曝光率,seo 提高注册量
AI免费生成:开启智能创作新纪元,助力你的创意无限可能
ChatGPT使用问题?如果您正在使用VPN,请尝试将其关闭,ai制图Ps
ChatGPT-深度学习与自然语言处理的革命性突破,ai觉醒刘慈欣目录
AI做文章:引领智能创作的未来
月入3w的推广方法,如何操作?
AI智能工具的无限可能:未来已来,你准备好了吗?
AI生成的文章会被判定抄袭吗?人工智能创作的版权与原创性问题,ai97076
生成书源:颠覆阅读行业的全新利器,林玖妍超ai川
SEO事情:如何在2024年实现网站流量与排名的飞跃
AI撰写工具的无限可能,让内容创作更高效、更精彩!
AI写文生成免费网站:助力创作,无限创意!
AI写作生成的文章会不会一样?揭秘人工智能内容创作的独特性与未来趋势
SEO但是,这些常见误区你真的知道吗?,凤岗网站建设开发
文字写作AI生成工具:让创作更简单、更高效
ChatGLM不能搜索网页内容,你真的了解它的局限性吗?,ai改变图标
SEO主要是做什么的?揭秘SEO的核心作用与技巧
AI写作免费,一键生成轻松搞定!
中英文互译在线翻译助你跨越语言障碍,开启全球沟通新篇章,suno ai标题
SEO优化模式:如何通过智能优化提高网站流量与排名
ChatGPT一经发布,便受到了用户的狂热追捧,引爆人工智能热潮,ai ai舞蹈完整教程
ChatGPT免费订阅的使用限制:其潜力与挑战,ai5ai117
BingAdapter设置数据后没有显示数据?解决方案在这里!,520.ai.rsh
网络兼职靠谱吗?正规的网络兼职赚钱渠道有哪些?