MiMo-V2

创建时间： 2026-04-27 来源： [[sources/138. 对罗福莉3.5小时访谈：AI范式已然巨变！OpenClaw、Agent范式很吃后训练、卡的分配、组织平权]] 相关： Agent-Paradigm-Shift，Post-Training-Era，Luo-Fuli

概览

MiMo-V2 是小米大模型团队（罗福莉主导）研发的模型系列，针对 Agent 时代进行了特化设计。系列包含四个模型：

模型	定位	发布时间
MiMo-V2 Flash	极致性价比的轻量模型	2025-12-16
MiMo-V2 Pro	1T 参数级旗舰语言模型	2026 年初
MiMo-V2 Omni	全模态感知（文/图/音/视频）	2026 年初
MiMo-V2 TTS	离散化语音合成	2026 年初

核心设计理念：Non-Cognitive 效率优先

MiMo-V2 架构的核心目标不是追求最高 Benchmark 分数，而是追求 non-cognitive（非认知）效率——推理速度要快、成本要低。 这两个要素被定位为”生产力革命非常前置的条件”。

Hybrid Attention 结构

设计原理

采用 Full Attention（全注意力层）+ Sliding Window Attention（滑动窗口层） 的混合结构：

Flash：5 层 Full + 滑动窗口层（较低稀疏比）
Pro：Full 与 Sliding Window 比例为 7:1（更高稀疏比）

与 MoE/MLA 的对比

维度	MiMo Hybrid	MoE (MLA)
KV Cache	Sliding Window 大幅减少	MLA 本身已优化
推理速度	100-150 TPS (Flash)，60-100 TPS (Pro)	较慢
计算余量	天然有大量计算赋予	已打满，无余量
MTP 适配	可以利用 MTP 填充算力	MTP 会导致计算瓶颈
Agent 适配	长上下文成本低，适合多轮	灵活度受限

MoE/MLA 在设计之初追求在特定芯片上达到仿存与计算的完美平衡，但这也意味着没有可发挥的空间——MTP 之类的加速技术无法适用。

稀疏比的实验发现

两个实验结果支撑了 Pro 的 7:1 稀疏比：

Full Attention 的层数（绝对数量）比稀疏比更重要——更大模型可以保持与 Flash 相同的 Full 层数，仅增加 Sliding Window 层
更大模型可以吃更大的 attention sparsity——更稀疏而不过度损失效果

这使得 Pro 在长上下文效率与 Flash 相当的情况下，智能水平显著提升。

MTP（Multi-Token Prediction）

原理

MTP 在单次推理中预测多个后续 Token，利用模型结构中天然的计算冗余来提高 GPU 利用率和吐字速度。

为什么 MTP 在 MiMo 上特别有效

Hybrid Attention 的 Sliding Window 层天然留有大量计算赋予。MTP 将这些剩余算力有效利用——在更短时间内吐出更多 Token，打高 GPU 利用率，降低单 Token 生产成本。

无幻觉保障

MTP 预测的每个 Token 会被 verify（验证），只有预测准确才会被采纳。不存在额外幻觉风险。

训练策略

预训练阶段：训练 1 层 MTP，用于提升基座能力
后训练阶段：训练额外的 MTP 层，用于推理加速

MiMo-V2 Omni：全模态感知

模态覆盖

支持视频、音频、图片、文本的联合理解，是首个在 Agent 能力上与纯语言模型持平的全模态模型。

音频离散化

采用多层 RVQ（Residual Vector Quantization）将连续音频信号转化为离散 Token ID，统一到 LLM 的 Token 范式下。这是一个需要大量预训练才能涌现的非主流架构选择。

图像离散化

正在进行中，尚未完全迈过重建质量的门槛。

全模态与智能的关系

当前观察到的现象：

Omni（比 Pro 小）在世界知识储备和细微感知力上优于 Pro
但在任何 Benchmark 上文思不动（没有可测量的提升）
原生多模态训练带来的智能提升目前主要体现在”体感”层面

罗福莉不认为全模态是 AGI 的必要路径——在 Agent 框架可以优雅编排多个模型的场景下，单个模型是否全模态并不关键。但她推测生成能力（而不仅是感知能力）可能促进更深层的智能。

定价逻辑的转变

Flash 时代：按推理成本定价（输入 $1.01/ Mt o k e n ，输出$ 0.30/M token）
Pro 时代：按模型产生的价值定价——后训练对框架的理解能力构成定价溢价

关键数据

Flash 推理速度：100-150 TPS
Pro 推理速度：60-100 TPS
Pro 总参数：1T 以上
Pro 的 Hybrid 稀疏比：7:1（Full : Sliding Window）
训练集群规模：几千卡
研究与训练 GPU 比例建议：3:1:1（研究 : 预训练 : 后训练）

引用

“我们永远会去追求成本和效率最低的一套方案，这是生产力革命非常前置的条件。”
“一旦体验到了更快的模型，你就回不到更慢的模型了。”
“更大模型可以更稀疏，但小的模型太稀疏了，模型效果就会非常严重。“

参考资料

来源：138. 对罗福莉3.5小时访谈：AI范式已然巨变！OpenClaw、Agent范式很吃后训练、卡的分配、组织平权

Notes Wiki

Explorer

MiMo-V2

MiMo-V2

概览

核心设计理念：Non-Cognitive 效率优先

Hybrid Attention 结构

设计原理

与 MoE/MLA 的对比

稀疏比的实验发现

MTP（Multi-Token Prediction）

原理

为什么 MTP 在 MiMo 上特别有效

无幻觉保障

训练策略

MiMo-V2 Omni：全模态感知

模态覆盖

音频离散化

图像离散化

全模态与智能的关系

定价逻辑的转变

关键数据

引用

参考资料

Graph View

Table of Contents

Backlinks