欢迎光临,我们是一家专注中小型企业营销推广服务的公司!

咨询热线:400 9868 577
淮南兰乔电子商务有限公司
新闻中心News
淮南兰乔电子商务有限公司

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

作者:霞舞 | 点击: | 来源:霞舞
1909
2025
小米正式宣布开源其首个原生端到端语音模型——Xiaomi-MiMo-Audio。该模型基于创新的预训练架构,并利用超过一亿小时的海量语音数据进行训练,首次在语音领域实现了基于上下文学习(ICL)的少样本泛化能力,且在预训练过程中观察到了显著的“涌现”现象。官方指出,经过后训练优化,Xiaomi-MiMo-Audio在智能理解、情感表达、语音表现力以及安全性等方面展现出卓越的跨模态对齐能力,使得语音交互在自然度、情绪传递和对话连贯性上达到了高度拟人化的水平。Xiaomi-MiMo-Audio的核心...

小米正式宣布开源其首个原生端到端语音模型——xiaomi-mimo-audio。该模型基于创新的预训练架构,并利用超过一亿小时的海量语音数据进行训练,首次在语音领域实现了基于上下文学习(icl)的少样本泛化能力,且在预训练

过程中观察到了显著的“涌现”现象。

官方指出,经过后训练优化,Xiaomi-MiMo-Audio 在智能理解、情感表达、语音表现力以及安全性等方面展现出卓越的跨模态对齐能力,使得语音交互在自然度、情绪传递和对话连贯性上达到了高度拟人化的水平。

Xiaomi-MiMo-Audio 的核心性能表现如下:

  • 在多项通用语音理解与对话评测基准中,MiMo-Audio 显著优于同规模参数的开源模型,成为当前 7B 级别中性能最强的开源语音模型
  • 在音频理解任务标准测试集 MMAU 上,性能超越 Google 的闭源模型 Gemini-2.5-Flash
  • 在面向复杂音频推理的 Big Bench Audio S2T 基准中,同样超过了 OpenAI 的闭源语音模型 GPT-4o-Audio-Preview

Xiaomi-MiMo-Audio 的主要技术突破包括:

  • 首次验证:将语音无损压缩下的预训练规模扩展至 1 亿小时,可“涌现”出跨任务的泛化能力,展现出强大的 Few-Shot Learning 特性,标志着语音领域的“GPT-3 时刻”到来

  • 全球首个明确定义生成式语音预训练目标并完整开源整套语音预训练体系的项目,涵盖无损压缩 Tokenizer、全新模型结构、训练流程与评估标准,开启语音技术的“LLaMA 时刻”

  • 首个在语音理解与生成过程中同时引入“思考(Thinking)”机制的开源模型,支持混合式思维推理

模型构成:

  • MiMo-Audio-7B-Base:预训练基础模型,是目前开源生态中首个具备语音续写能力的端到端语音模型
  • MiMo-Audio-7B-Instruct:经轻量级指令微调(SFT)后的版本,在7B参数量级下实现领先的语音理解与生成性能

MiMo-Audio-7B-Instruct 支持通过 prompt 切换 non-thinking 与 thinking 两种运行模式,具备高起点强化学习(RL)潜力,可作为语音领域 RL 与 Agentic 行为研究的理想基座模型。

此外,小米还同步开源了 MiMo-Audio 的 Tokenizer 模型:

  • 参数规模达 1.2B,采用 Transformer 架构,兼顾高效性与建模能力
  • 从零开始训练,覆盖超千万小时真实语音数据
  • 同时支持高保真音频重建与音频转文本(A2T)双重任务
相关推荐
我要咨询做网站
成功案例
建站流程
  • 网站需
    求分析
  • 网站策
    划方案
  • 页面风
    格设计
  • 程序设
    计研发
  • 资料录
    入优化
  • 确认交
    付使用
  • 后续跟
    踪服务
  • 400 9868 577
    info#ilanqiao.cn
Hi,Are you ready?
准备好开始了吗?
那就与我们取得联系吧

咨询送礼现在提交,将获得兰乔电子商务策划专家免费为您制作
价值5880元《全网营销方案+优化视频教程》一份!
下单送礼感恩七周年,新老用户下单即送创业型空间+域名等大礼
24小时免费咨询热线400 9868 577
合作意向表
您需要的服务
您最关注的地方
预算

直接咨询