欢迎光临,我们是一家专注中小型企业营销推广服务的公司!

咨询热线:400 9868 577
淮南兰乔电子商务有限公司
新闻中心News
淮南兰乔电子商务有限公司

小米开源 Xiaomi MiMo-V2-Flash:高效推理、代码与 Agent 基座模型

作者:碧海醫心 | 点击: | 来源:碧海醫心
1712
2025
小米正式开源XiaomiMiMo-V2-Flash——一款由小米自主研发、专为极致推理性能优化的MoE大模型,总参数量达309B(激活参数仅15B)。该模型创新性融合Hybrid注意力机制与多层级MTP推理加速技术,在多项Agent能力评测中稳居全球开源模型前两名;其代码生成能力超越所有现有开源模型,与顶级闭源模型Claude4.5Sonnet持平,而推理成本仅为后者的2.5%,生成速度更提升至2倍,真正实现了大模型效果与效率的双重突破。MiMo-V2-Flash模...

小米正式开源 xiaomi mimo-v2-flash——一款由小米自主研发、专为极致推理性能优化的 moe 大模型,总参数量达 309b(激活参数仅 15b)。该模型创新性融合 hybrid 注意力机制与多层级 mtp 推理加速技术,在多项 agent 能力评测中稳居全球开源模型前两名;其代码生成能力超越所有现有开源模型,与顶级闭源模型 claude 4.5 sonnet 持平,而推理成本仅为后者的 2.5%,生成速度更提升至 2 倍,真正实现了大模型效果与效率的双重突破。

MiMo-V2-Flash 模型整体架构如下:

MiMo-V2-Flash 核心设计亮点:

  • 混合注意力机制

采用比例为 5:1 的 Sliding Window Attention(SWA)与 Global Attention(GA)协同结构,滑动窗口大小设为 128,原生支持 32K 上下文,并在训练中扩展至 256K。大量前期实验表明,SWA 在通用性、长文本建模及推理稳定性方面全面优于主流 Linear Attention,同时具备固定尺寸的 KV Cache,极大简化了与现有训练与推理基础设施(Infra)的集成适配流程。

  • MTP 推理加速技术

通过 Multi-Token Prediction(MTP)方式强化基座模型能力,并在推理阶段实现多 Token 并行验证,有效缓解传统自回归解码在大 Batch 场景下的显存带宽瓶颈。实测数据显示:启用 3 层 MTP 后,接收长度提升 2.8~3.6 倍,端到端推理加速比达 2.0~2.6 倍。

综上,MiMo-V2-Flash 凭借模型结构与训推系统深度协同的创新设计,可在不同硬件平台上灵活调节 Batch Size 与 MTP 层数,充分释放 GPU 算力,兼顾

高吞吐、低延迟与极致推理性能。

Xiaomi MiMo-V2-Flash 全量模型权重与推理代码均已开源。配套 API 当前限时免费开放,Web 版 Demo 已正式上线。

访问 platform.xiaomimimo.com,即可无缝接入 Claude Code、Cursor、Cline、Kilo Code 等主流开发框架。

立即前往 MiMo Studio Web 端:aistudio.xiaomimimo.com,免费体验模型能力。

源码地址:点击下载

相关推荐
我要咨询做网站
成功案例
建站流程
  • 网站需
    求分析
  • 网站策
    划方案
  • 页面风
    格设计
  • 程序设
    计研发
  • 资料录
    入优化
  • 确认交
    付使用
  • 后续跟
    踪服务
  • 400 9868 577
    info#ilanqiao.cn
Hi,Are you ready?
准备好开始了吗?
那就与我们取得联系吧

咨询送礼现在提交,将获得兰乔电子商务策划专家免费为您制作
价值5880元《全网营销方案+优化视频教程》一份!
下单送礼感恩七周年,新老用户下单即送创业型空间+域名等大礼
24小时免费咨询热线400 9868 577
合作意向表
您需要的服务
您最关注的地方
预算

直接咨询