Sebastian Raschka

创建时间: 2026-05-03 来源: [[sources/#490--state-of-ai-in-2026-llms-coding-scaling-laws-china-agents-gpus-agi|490 – State of AI in 2026 LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI]] 相关: Nathan-LambertLex-FridmanScaling-Laws-Three-AxesRLVR-and-ReasoningState-of-AI-2026


身份

机器学习研究者、工程师、教育者、作家。前学术界(计算生物学方向),现为独立研究者和技术写作者。

核心著作

  • Build a Large Language Model from Scratch — 从零构建 LLM 的实操教程,使用 GPT-2 架构
  • Build a Reasoning Model from Scratch — 推理模型的实操构建
  • 两本书的核心哲学:代码不会撒谎。书中图表可能有错,概念解释可能被误解,但代码能运行就是正确——这是验证理解的最佳方式

核心观点

从零构建作为学习方法

  • 建议分两遍学习:第一遍离线专注(读书+动手),第二遍使用 LLM 辅助
  • 不反对使用 LLM 学习,但反对在第一遍就依赖 LLM 查询——先让知识沉淀,再用 LLM 做练习和验证
  • 从零构建的意义不是造出生产级模型,而是理解 pre-training、SFT、attention 机制的每一步

架构观点

  • Transformer 架构从 GPT-2 到今天本质上没变——GQA、RMS Norm、MoE 都只是”微调”级别的改动
  • 从 GPT-2 模型出发,加上不同的微调组件就能得到 Gemma 3 或其他现代模型——“这是一种谱系关系”
  • 当前仍是自回归 Transformer 的天下;文本扩散和 Mamba 是有价值的替代方向,但尚未取代

预训练 vs 推理扩展

  • 预训练没死——只是性价比不如其他扩展轴
  • 在无限算力的理想世界里,pre-training / mid-training / post-training / inference scaling 全都要做
  • 现实中关键是找到”最佳比例”——以最少的钱获得最大的能力提升

RLVR 实操验证

  • 用 Gemma 3 base 在 Math500 上做 RLVR 实验:base 准确率 ~15%,仅 50 步(几分钟)后提升到 ~50%
  • 解读:RL 不是在教模型新知识,而是在”解锁”预训练中已学到的能力
  • “Aha moment” 虽然看起来很酷,但更可能是 RL 放大了预训练中已见过的行为模式(如数学课堂上的分步讲解)

数据与领域专化

  • 专有数据将成为未来竞争护城河——制药、法律、金融领域迟早会雇人用自有数据训练内部模型
  • 通用 LLM 只是冰山一角——专门为特定任务设计的 LLM 尚未被充分挖掘
  • LLM 不需要记住一切——数学用计算器,事实用搜索引擎——工具使用是减少幻觉的关键

关于 AI 编程

  • 使用 VS Code 的 Codex 插件,认为它是”甜蜜点”——辅助但不完全接管
  • AI 编程的最大价值:消除调试的孤独感(pair programmer),处理枯燥重复的工作
  • 但警告:如果所有编程都交给 AI,你可能失去”找到 bug 时的那种极致满足感”
  • 延迟满足:像圣诞礼物——期待礼物比拿到礼物更让人兴奋;食物在饥饿时最好吃

人类学习的 Goldilocks 区间

  • 高级开发者比初级开发者更多使用 AI 生成代码——说明专家更善于利用 AI
  • 但核心问题:如果你从不亲自尝试,你怎么成为专家?
  • 建议:每天留出离线学习时间(2 小时),其余时间用 LLM

与 Nathan Lambert 的互补关系

Nathan 更偏 post-training / RL / 政策;Sebastian 更偏架构 / 教育 / 从零构建。两人在播客中形成”实践 vs 系统”的互补视角。

参考资料

  • 来源:Lex Fridman Podcast #490
  • 书籍:Build a Large Language Model from ScratchBuild a Reasoning Model from Scratch
  • Substack 和 YouTube 课程