Notes Wiki

❯

❯

Sebastian Raschka

Sebastian-Raschka

May 10, 20265 min read

Sebastian Raschka

创建时间： 2026-05-03 来源： [[sources/#490--state-of-ai-in-2026-llms-coding-scaling-laws-china-agents-gpus-agi|490 – State of AI in 2026 LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI]] 相关： Nathan-Lambert，Lex-Fridman，Scaling-Laws-Three-Axes，RLVR-and-Reasoning，State-of-AI-2026

身份

机器学习研究者、工程师、教育者、作家。前学术界（计算生物学方向），现为独立研究者和技术写作者。

核心著作

Build a Large Language Model from Scratch — 从零构建 LLM 的实操教程，使用 GPT-2 架构
Build a Reasoning Model from Scratch — 推理模型的实操构建
两本书的核心哲学：代码不会撒谎。书中图表可能有错，概念解释可能被误解，但代码能运行就是正确——这是验证理解的最佳方式

核心观点

从零构建作为学习方法

建议分两遍学习：第一遍离线专注（读书+动手），第二遍使用 LLM 辅助
不反对使用 LLM 学习，但反对在第一遍就依赖 LLM 查询——先让知识沉淀，再用 LLM 做练习和验证
从零构建的意义不是造出生产级模型，而是理解 pre-training、SFT、attention 机制的每一步

架构观点

Transformer 架构从 GPT-2 到今天本质上没变——GQA、RMS Norm、MoE 都只是”微调”级别的改动
从 GPT-2 模型出发，加上不同的微调组件就能得到 Gemma 3 或其他现代模型——“这是一种谱系关系”
当前仍是自回归 Transformer 的天下；文本扩散和 Mamba 是有价值的替代方向，但尚未取代

预训练 vs 推理扩展

预训练没死——只是性价比不如其他扩展轴
在无限算力的理想世界里，pre-training / mid-training / post-training / inference scaling 全都要做
现实中关键是找到”最佳比例”——以最少的钱获得最大的能力提升

RLVR 实操验证

用 Gemma 3 base 在 Math500 上做 RLVR 实验：base 准确率 ~15%，仅 50 步（几分钟）后提升到 ~50%
解读：RL 不是在教模型新知识，而是在”解锁”预训练中已学到的能力
“Aha moment” 虽然看起来很酷，但更可能是 RL 放大了预训练中已见过的行为模式（如数学课堂上的分步讲解）

数据与领域专化

专有数据将成为未来竞争护城河——制药、法律、金融领域迟早会雇人用自有数据训练内部模型
通用 LLM 只是冰山一角——专门为特定任务设计的 LLM 尚未被充分挖掘
LLM 不需要记住一切——数学用计算器，事实用搜索引擎——工具使用是减少幻觉的关键

关于 AI 编程

使用 VS Code 的 Codex 插件，认为它是”甜蜜点”——辅助但不完全接管
AI 编程的最大价值：消除调试的孤独感（pair programmer），处理枯燥重复的工作
但警告：如果所有编程都交给 AI，你可能失去”找到 bug 时的那种极致满足感”
延迟满足：像圣诞礼物——期待礼物比拿到礼物更让人兴奋；食物在饥饿时最好吃

人类学习的 Goldilocks 区间

高级开发者比初级开发者更多使用 AI 生成代码——说明专家更善于利用 AI
但核心问题：如果你从不亲自尝试，你怎么成为专家？
建议：每天留出离线学习时间（2 小时），其余时间用 LLM

与 Nathan Lambert 的互补关系

Nathan 更偏 post-training / RL / 政策；Sebastian 更偏架构 / 教育 / 从零构建。两人在播客中形成”实践 vs 系统”的互补视角。

参考资料

来源：Lex Fridman Podcast #490
书籍：Build a Large Language Model from Scratch、Build a Reasoning Model from Scratch
Substack 和 YouTube 课程

Graph View

Sebastian Raschka
身份
核心著作
核心观点
从零构建作为学习方法
架构观点
预训练 vs 推理扩展
RLVR 实操验证
数据与领域专化
关于 AI 编程
人类学习的 Goldilocks 区间
与 Nathan Lambert 的互补关系
参考资料

Backlinks

Open-Weight-Models-Geopolitics
RLVR-and-Reasoning
Scaling-Laws-Three-Axes
State-of-AI-2026
US-China-AI-Competition
index
Lex-Fridman
Nathan-Lambert

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community