MiMo-V2
创建时间: 2026-04-27
来源: [[sources/138. 对罗福莉3.5小时访谈:AI范式已然巨变!OpenClaw、Agent范式很吃后训练、卡的分配、组织平权]]
相关: Agent-Paradigm-Shift,Post-Training-Era,Luo-Fuli
概览
MiMo-V2 是小米大模型团队(罗福莉主导)研发的模型系列,针对 Agent 时代进行了特化设计。系列包含四个模型:
| 模型 | 定位 | 发布时间 |
|---|---|---|
| MiMo-V2 Flash | 极致性价比的轻量模型 | 2025-12-16 |
| MiMo-V2 Pro | 1T 参数级旗舰语言模型 | 2026 年初 |
| MiMo-V2 Omni | 全模态感知(文/图/音/视频) | 2026 年初 |
| MiMo-V2 TTS | 离散化语音合成 | 2026 年初 |
核心设计理念:Non-Cognitive 效率优先
MiMo-V2 架构的核心目标不是追求最高 Benchmark 分数,而是追求 non-cognitive(非认知)效率——推理速度要快、成本要低。 这两个要素被定位为”生产力革命非常前置的条件”。
Hybrid Attention 结构
设计原理
采用 Full Attention(全注意力层)+ Sliding Window Attention(滑动窗口层) 的混合结构:
- Flash:5 层 Full + 滑动窗口层(较低稀疏比)
- Pro:Full 与 Sliding Window 比例为 7:1(更高稀疏比)
与 MoE/MLA 的对比
| 维度 | MiMo Hybrid | MoE (MLA) |
|---|---|---|
| KV Cache | Sliding Window 大幅减少 | MLA 本身已优化 |
| 推理速度 | 100-150 TPS (Flash),60-100 TPS (Pro) | 较慢 |
| 计算余量 | 天然有大量计算赋予 | 已打满,无余量 |
| MTP 适配 | 可以利用 MTP 填充算力 | MTP 会导致计算瓶颈 |
| Agent 适配 | 长上下文成本低,适合多轮 | 灵活度受限 |
MoE/MLA 在设计之初追求在特定芯片上达到仿存与计算的完美平衡,但这也意味着没有可发挥的空间——MTP 之类的加速技术无法适用。
稀疏比的实验发现
两个实验结果支撑了 Pro 的 7:1 稀疏比:
- Full Attention 的层数(绝对数量)比稀疏比更重要——更大模型可以保持与 Flash 相同的 Full 层数,仅增加 Sliding Window 层
- 更大模型可以吃更大的 attention sparsity——更稀疏而不过度损失效果
这使得 Pro 在长上下文效率与 Flash 相当的情况下,智能水平显著提升。
MTP(Multi-Token Prediction)
原理
MTP 在单次推理中预测多个后续 Token,利用模型结构中天然的计算冗余来提高 GPU 利用率和吐字速度。
为什么 MTP 在 MiMo 上特别有效
Hybrid Attention 的 Sliding Window 层天然留有大量计算赋予。MTP 将这些剩余算力有效利用——在更短时间内吐出更多 Token,打高 GPU 利用率,降低单 Token 生产成本。
无幻觉保障
MTP 预测的每个 Token 会被 verify(验证),只有预测准确才会被采纳。不存在额外幻觉风险。
训练策略
- 预训练阶段:训练 1 层 MTP,用于提升基座能力
- 后训练阶段:训练额外的 MTP 层,用于推理加速
MiMo-V2 Omni:全模态感知
模态覆盖
支持视频、音频、图片、文本的联合理解,是首个在 Agent 能力上与纯语言模型持平的全模态模型。
音频离散化
采用多层 RVQ(Residual Vector Quantization)将连续音频信号转化为离散 Token ID,统一到 LLM 的 Token 范式下。这是一个需要大量预训练才能涌现的非主流架构选择。
图像离散化
正在进行中,尚未完全迈过重建质量的门槛。
全模态与智能的关系
当前观察到的现象:
- Omni(比 Pro 小)在世界知识储备和细微感知力上优于 Pro
- 但在任何 Benchmark 上文思不动(没有可测量的提升)
- 原生多模态训练带来的智能提升目前主要体现在”体感”层面
罗福莉不认为全模态是 AGI 的必要路径——在 Agent 框架可以优雅编排多个模型的场景下,单个模型是否全模态并不关键。但她推测生成能力(而不仅是感知能力)可能促进更深层的智能。
定价逻辑的转变
- Flash 时代:按推理成本定价(输入 0.30/M token)
- Pro 时代:按模型产生的价值定价——后训练对框架的理解能力构成定价溢价
关键数据
- Flash 推理速度:100-150 TPS
- Pro 推理速度:60-100 TPS
- Pro 总参数:1T 以上
- Pro 的 Hybrid 稀疏比:7:1(Full : Sliding Window)
- 训练集群规模:几千卡
- 研究与训练 GPU 比例建议:3:1:1(研究 : 预训练 : 后训练)
引用
- “我们永远会去追求成本和效率最低的一套方案,这是生产力革命非常前置的条件。”
- “一旦体验到了更快的模型,你就回不到更慢的模型了。”
- “更大模型可以更稀疏,但小的模型太稀疏了,模型效果就会非常严重。“