MiMo-V2

创建时间: 2026-04-27 来源: [[sources/138. 对罗福莉3.5小时访谈:AI范式已然巨变!OpenClaw、Agent范式很吃后训练、卡的分配、组织平权]] 相关: Agent-Paradigm-ShiftPost-Training-EraLuo-Fuli


概览

MiMo-V2 是小米大模型团队(罗福莉主导)研发的模型系列,针对 Agent 时代进行了特化设计。系列包含四个模型:

模型定位发布时间
MiMo-V2 Flash极致性价比的轻量模型2025-12-16
MiMo-V2 Pro1T 参数级旗舰语言模型2026 年初
MiMo-V2 Omni全模态感知(文/图/音/视频)2026 年初
MiMo-V2 TTS离散化语音合成2026 年初

核心设计理念:Non-Cognitive 效率优先

MiMo-V2 架构的核心目标不是追求最高 Benchmark 分数,而是追求 non-cognitive(非认知)效率——推理速度要快、成本要低。 这两个要素被定位为”生产力革命非常前置的条件”。

Hybrid Attention 结构

设计原理

采用 Full Attention(全注意力层)+ Sliding Window Attention(滑动窗口层) 的混合结构:

  • Flash:5 层 Full + 滑动窗口层(较低稀疏比)
  • Pro:Full 与 Sliding Window 比例为 7:1(更高稀疏比)

与 MoE/MLA 的对比

维度MiMo HybridMoE (MLA)
KV CacheSliding Window 大幅减少MLA 本身已优化
推理速度100-150 TPS (Flash),60-100 TPS (Pro)较慢
计算余量天然有大量计算赋予已打满,无余量
MTP 适配可以利用 MTP 填充算力MTP 会导致计算瓶颈
Agent 适配长上下文成本低,适合多轮灵活度受限

MoE/MLA 在设计之初追求在特定芯片上达到仿存与计算的完美平衡,但这也意味着没有可发挥的空间——MTP 之类的加速技术无法适用。

稀疏比的实验发现

两个实验结果支撑了 Pro 的 7:1 稀疏比:

  1. Full Attention 的层数(绝对数量)比稀疏比更重要——更大模型可以保持与 Flash 相同的 Full 层数,仅增加 Sliding Window 层
  2. 更大模型可以吃更大的 attention sparsity——更稀疏而不过度损失效果

这使得 Pro 在长上下文效率与 Flash 相当的情况下,智能水平显著提升。

MTP(Multi-Token Prediction)

原理

MTP 在单次推理中预测多个后续 Token,利用模型结构中天然的计算冗余来提高 GPU 利用率和吐字速度。

为什么 MTP 在 MiMo 上特别有效

Hybrid Attention 的 Sliding Window 层天然留有大量计算赋予。MTP 将这些剩余算力有效利用——在更短时间内吐出更多 Token,打高 GPU 利用率,降低单 Token 生产成本。

无幻觉保障

MTP 预测的每个 Token 会被 verify(验证),只有预测准确才会被采纳。不存在额外幻觉风险。

训练策略

  • 预训练阶段:训练 1 层 MTP,用于提升基座能力
  • 后训练阶段:训练额外的 MTP 层,用于推理加速

MiMo-V2 Omni:全模态感知

模态覆盖

支持视频、音频、图片、文本的联合理解,是首个在 Agent 能力上与纯语言模型持平的全模态模型。

音频离散化

采用多层 RVQ(Residual Vector Quantization)将连续音频信号转化为离散 Token ID,统一到 LLM 的 Token 范式下。这是一个需要大量预训练才能涌现的非主流架构选择。

图像离散化

正在进行中,尚未完全迈过重建质量的门槛。

全模态与智能的关系

当前观察到的现象:

  • Omni(比 Pro 小)在世界知识储备和细微感知力上优于 Pro
  • 但在任何 Benchmark 上文思不动(没有可测量的提升)
  • 原生多模态训练带来的智能提升目前主要体现在”体感”层面

罗福莉不认为全模态是 AGI 的必要路径——在 Agent 框架可以优雅编排多个模型的场景下,单个模型是否全模态并不关键。但她推测生成能力(而不仅是感知能力)可能促进更深层的智能。

定价逻辑的转变

  • Flash 时代:按推理成本定价(输入 0.30/M token)
  • Pro 时代:按模型产生的价值定价——后训练对框架的理解能力构成定价溢价

关键数据

  • Flash 推理速度:100-150 TPS
  • Pro 推理速度:60-100 TPS
  • Pro 总参数:1T 以上
  • Pro 的 Hybrid 稀疏比:7:1(Full : Sliding Window)
  • 训练集群规模:几千卡
  • 研究与训练 GPU 比例建议:3:1:1(研究 : 预训练 : 后训练)

引用

  • “我们永远会去追求成本和效率最低的一套方案,这是生产力革命非常前置的条件。”
  • “一旦体验到了更快的模型,你就回不到更慢的模型了。”
  • “更大模型可以更稀疏,但小的模型太稀疏了,模型效果就会非常严重。“

参考资料